Hadoop, NoSQL, Spark, Hive, Presto, Amazon Dynamo DB, Mongo DB, Elasticsearch, Spark Streaming, Tableau, Airflow。『ビッグデータを支える技術』

著：西田圭介

　ビッグデータに関する技術的なトレンドについて、オープンソースとクラウドを中心に広範囲に紹介した本。Hadoop, NoSQL, Spark, Hive, Presto, Amazon Dynamo DB, Mongo DB, Elasticsearch, Spark Streaming, Tableau, Airflowといったものが取り上げられている。本書で取り上げる中心部分の全体像は、以下のような図になる（本書より転記）。

f:id:ColdSnap:20180107181508p:plain

　AWSとGCPのデータ処理基盤についても書かれている。特に、終盤の方に出てくるAmazon RedshiftとGoogle BigQueryの違いは一目瞭然でよく違いがわかる。

　総合的な内容なので、ひとつひとつについてはすごく詳しいというようなものではないが、網羅性はある。個別についてはさらに詳しく勉強する前提で、まずは全体についてつかむことが本書の用途になる。商用製品やサービスについてはAWSとGCPとあとは著者が所属するTreasureDataが目に付く程度だが、オープンソースは多く出てくる。Pythonをはじめとしてごく簡単なコマンドやプログラムのサンプルもある。勉強にはなった。

第1章ビッグデータの基礎知識
第2章ビッグデータの探索
第3章ビッグデータの分散処理
第4章ビッグデータの蓄積
第5章ビッグデータのパイプライン
第6章ビッグデータ分析基盤の構築

単行本、304ページ、技術評論社、2017/9/22