著:西田 圭介
ビッグデータに関する技術的なトレンドについて、オープンソースとクラウドを中心に広範囲に紹介した本。Hadoop, NoSQL, Spark, Hive, Presto, Amazon Dynamo DB, Mongo DB, Elasticsearch, Spark Streaming, Tableau, Airflowといったものが取り上げられている。本書で取り上げる中心部分の全体像は、以下のような図になる(本書より転記)。
AWSとGCPのデータ処理基盤についても書かれている。特に、終盤の方に出てくるAmazon RedshiftとGoogle BigQueryの違いは一目瞭然でよく違いがわかる。
総合的な内容なので、ひとつひとつについてはすごく詳しいというようなものではないが、網羅性はある。個別についてはさらに詳しく勉強する前提で、まずは全体についてつかむことが本書の用途になる。商用製品やサービスについてはAWSとGCPとあとは著者が所属するTreasureDataが目に付く程度だが、オープンソースは多く出てくる。Pythonをはじめとしてごく簡単なコマンドやプログラムのサンプルもある。勉強にはなった。
目次
第1章 ビッグデータの基礎知識
第2章 ビッグデータの探索
第3章 ビッグデータの分散処理
第4章 ビッグデータの蓄積
第5章 ビッグデータのパイプライン
第6章 ビッグデータ分析基盤の構築
単行本、304ページ、技術評論社 、2017/9/22
ビッグデータを支える技術―刻々とデータが脈打つ自動化の世界 (WEB+DB PRESS plus)
- 作者: 西田圭介
- 出版社/メーカー: 技術評論社
- 発売日: 2017/09/22
- メディア: 単行本(ソフトカバー)