密林の図書室

人生は短く、経験からのみ得られることは限られます。読書から多くのことを学び、アウトプット化も本との対話の一部として大切なものだと考えてきたので、このブログを立ち上げて日々読んできた本の備忘録として活用しています。

ビッグデータやAI(機械学習)時代に決定的に重要なデータの前処理。「前処理大全 データ分析のためのSQL/R/Python実践テクニック」

本橋 智光 (著)

 

 ビッグデータは様々なデータをためる仕組みであり、機械学習はデータで学習させる。統計的な手法を駆使して分析を行うデータサイエンティストも引っ張りだこだ。それらに共通することはデータである。しかし、データを高い利便性で利用しようとすると、分析の前処理は欠かせない。このため、データの前処理はデータ分析業務の8割を占めるといわれる。

 

 本書は、この前処理に焦点を当てた本である。プログラミングレベルの内容で、SQL/R/Pythonの3つの言語が想定されてあり、実際のサンプルプログラムを例示しながら解説が行われている。サンプルコードは、すべて指定のサイトからダウンロードできる。本書で解説されている前処理は、以下のようなものである。

 

・抽出:条件指定や列指定抽出、サンプリング

・集約:カウント、合計、代表値、分散値と標準偏差、最頻値、順位

・結合:マスターテーブルの結合、全結合、過去データの結合

・分割:モデル検証用のデータ分割、検証用のデータ分割

・生成:アンダーサンプリング、オーバーサンプリング

・展開:横持ち変換、スーパーマトリックスへの変換

・数値処理:非線形な変化、正規化、外れ値除去、欠損レコード削除

・カテゴリ型:カテゴリ型への変換、補完、集約

・日時型:日時型への変換、日時型への変換や差分、平日と休日、季節や時間帯

・文字型:形態素解析。単語の集合データ。単語の重要度設定

・位置情報:日本測地系から世界測地系、2点間の距離や方角の計算

 

 

 ひたすら様々な前処理向きのデータ編集のコードの説明が続く。ひとつひとつであれば、検索エンジンで調べれば出てくるものがほとんどではあるが、これだけまとまって一冊になっているのは便利である。もっとも、それぞれ、SQL/R/Pythonで書かれているので、多くの人がそうだと思われるが、どれか1つしか必要としない人にとっては読まなくてもいいページもたくさんある。最後の章はまるごと演習問題になっている。尚、本書は数値・文字・理論値が対象であって、画像・音声・動画は対象ではない。

 

大型本、336ページ、技術評論社、2018/4/13

 

前処理大全[データ分析のためのSQL/R/Python実践テクニック]

前処理大全[データ分析のためのSQL/R/Python実践テクニック]

  • 作者: 本橋智光
  • 出版社/メーカー: 技術評論社
  • 発売日: 2018/04/13
  • メディア: 大型本