本橋 智光 (著)
ビッグデータは様々なデータをためる仕組みであり、機械学習はデータで学習させる。統計的な手法を駆使して分析を行うデータサイエンティストも引っ張りだこだ。それらに共通することはデータである。しかし、データを高い利便性で利用しようとすると、分析の前処理は欠かせない。このため、データの前処理はデータ分析業務の8割を占めるといわれる。
本書は、この前処理に焦点を当てた本である。プログラミングレベルの内容で、SQL/R/Pythonの3つの言語が想定されてあり、実際のサンプルプログラムを例示しながら解説が行われている。サンプルコードは、すべて指定のサイトからダウンロードできる。本書で解説されている前処理は、以下のようなものである。
・抽出:条件指定や列指定抽出、サンプリング
・集約:カウント、合計、代表値、分散値と標準偏差、最頻値、順位
・結合:マスターテーブルの結合、全結合、過去データの結合
・分割:モデル検証用のデータ分割、検証用のデータ分割
・生成:アンダーサンプリング、オーバーサンプリング
・展開:横持ち変換、スーパーマトリックスへの変換
・数値処理:非線形な変化、正規化、外れ値除去、欠損レコード削除
・カテゴリ型:カテゴリ型への変換、補完、集約
・日時型:日時型への変換、日時型への変換や差分、平日と休日、季節や時間帯
・文字型:形態素解析。単語の集合データ。単語の重要度設定
・位置情報:日本測地系から世界測地系、2点間の距離や方角の計算
ひたすら様々な前処理向きのデータ編集のコードの説明が続く。ひとつひとつであれば、検索エンジンで調べれば出てくるものがほとんどではあるが、これだけまとまって一冊になっているのは便利である。もっとも、それぞれ、SQL/R/Pythonで書かれているので、多くの人がそうだと思われるが、どれか1つしか必要としない人にとっては読まなくてもいいページもたくさんある。最後の章はまるごと演習問題になっている。尚、本書は数値・文字・理論値が対象であって、画像・音声・動画は対象ではない。
大型本、336ページ、技術評論社、2018/4/13