ビッグデータやAI（機械学習）時代に決定的に重要なデータの前処理。「前処理大全　データ分析のためのSQL/R/Python実践テクニック」

本橋智光 (著)

　ビッグデータは様々なデータをためる仕組みであり、機械学習はデータで学習させる。統計的な手法を駆使して分析を行うデータサイエンティストも引っ張りだこだ。それらに共通することはデータである。しかし、データを高い利便性で利用しようとすると、分析の前処理は欠かせない。このため、データの前処理はデータ分析業務の8割を占めるといわれる。

　本書は、この前処理に焦点を当てた本である。プログラミングレベルの内容で、SQL/R/Pythonの３つの言語が想定されてあり、実際のサンプルプログラムを例示しながら解説が行われている。サンプルコードは、すべて指定のサイトからダウンロードできる。本書で解説されている前処理は、以下のようなものである。

・抽出：条件指定や列指定抽出、サンプリング

・集約：カウント、合計、代表値、分散値と標準偏差、最頻値、順位

・結合：マスターテーブルの結合、全結合、過去データの結合

・分割：モデル検証用のデータ分割、検証用のデータ分割

・生成：アンダーサンプリング、オーバーサンプリング

・展開：横持ち変換、スーパーマトリックスへの変換

・数値処理：非線形な変化、正規化、外れ値除去、欠損レコード削除

・カテゴリ型：カテゴリ型への変換、補完、集約

・日時型：日時型への変換、日時型への変換や差分、平日と休日、季節や時間帯

・文字型：形態素解析。単語の集合データ。単語の重要度設定

・位置情報：日本測地系から世界測地系、２点間の距離や方角の計算

　ひたすら様々な前処理向きのデータ編集のコードの説明が続く。ひとつひとつであれば、検索エンジンで調べれば出てくるものがほとんどではあるが、これだけまとまって一冊になっているのは便利である。もっとも、それぞれ、SQL/R/Pythonで書かれているので、多くの人がそうだと思われるが、どれか1つしか必要としない人にとっては読まなくてもいいページもたくさんある。最後の章はまるごと演習問題になっている。尚、本書は数値・文字・理論値が対象であって、画像・音声・動画は対象ではない。

大型本、336ページ、技術評論社、2018/4/13