いわしはだいだい昼寝をしている

まとまりもとりとめもない脳内爆発日記

データサイエンス「超」入門のレビュー

こんにちは.いわしです.Twitterでのおじさん活動で知り合いになりました松本健太郎さんから献本いただいた本が面白くて土曜日を捧げてしまいました.せっかくなので共有を.

要約
この本は「データ分析してみたい!」という方に対して,適切な方法論を提示するものではありません.むしろ,データ分析に必要なマインドや分析する前に大切にすることを,巷で実しやかに囁かれている事象をデータを用いて簡単かつ亭々に分析し,大胆かつ懇切丁寧に説明した「超」入門書と言えるでしょう.所々著者の毒が聞いているところも多く,読みのものとしても大変面白いです.著者の現実の諸問題に一歩距離を置き,データを使って理解を試みる姿勢はデータ分析関係者は参考にすべき姿勢です.

まあ,このレビュー者は個人的に松本さんを知っているので,「松本さんが書いているなら間違いない!」と「信じたいと望むようなことを自分から望んで信じている」(p.13)かもしれませんがね.

いいところ

背表紙にあるように,「嘘をウソと見抜けなければ,データを扱うのは難しい」かもしれません.では,どうすれば「嘘をウソと見抜け」,「データの読み方を鍛えられる」のでしょうか?

著者はデータを疑い,ありのままのデータに向き合う姿勢にその方法を求めます.”データサイエンス「超」入門”はその姿勢が徹底的に現れた一冊です.”「世界から愛される国,日本」に外国人はどれくらい訪れているのか”などの比較的ライトな話題から”アベノミクスで景気は良くなったのか”という硬派なテーマまで,なるべく数式を使わず,丁寧に解説されています.

この本は「データサイエンスって聞いたことあるけど,なんだか難しそう」と思っているそんな人に対して,真価を発揮します.ニュースを題材にし,誰でも簡単にアクセスできるデータを例にし(主に官公庁のもの),世間にまかり通っている通説をバッサバッサと切っていく姿勢に痛快ささえも覚えます.

グラフの題名の付け方,1つを取ってもこの本に流れる1つの姿勢:泥臭く自分でデータを見て格闘し理解すること,が見て取れます.なぜなら,題名をGoogleで検索すれば元になったデータに簡単にアクセスできるように配慮されており,読者のさらなるデータリテラシー向上に余念がないからです.

もしかしたら誤解を産むかもしれないところ

一方で,ゴリゴリのデータサイエンスを期待している人には少々物足りない内容かもしれません.例えば,「(重)回帰」と言った統計を少しでもかじったことある人には馴染みのある用語も後半の章に数回登場するくらいです.しかし,この本に分析の方法論や統計理論の解説を求めるのは,ピントが外れた期待と言わざるを得ません.題名が”「超」入門”と言っているように,本当に初歩の初歩,だけれどもデータサイエンティストとしてご飯が食べれるようになっても忘れてはいけないであろう心構えや姿勢の説明に特化している本です.あと,強いていうならグラフがモノクロで読みにくいです.

おじさんの感想

個人的には,0章の「バイアスだらけの私にリテラシーを」こそ多くの人に読まれるべきところだと感じました.データサイエンティストとして働く人や分析業務に携わる人の「あるある」である,課題発見の大切さについては松本さんは「解くべき問題を間違えれば,その後の分析は何の意味もありません」(p.24)と述べています.実はこれ自体は,元コンサルタントの方が書かれた本をはじめとしてビシネス書界隈では有名ですね(「issueから始めよ」をはじめとしてほとんどの知的生産術系のビジネス書にはこういうことが書いてあります).しかし,ここではデータを元にしてこの議論がなされているので,とても腑に落ちやすく設計されています.机上の空論的な空疎さがなく,地に足がついている感じがします.初心者である私にはとても嬉しい設計です.

著者の松本さんは普段からデータ分析界隈では,積極的に発信されていて面白い記事がとても多いです.直近では,自民党総裁選を簡単なデータからモデルを作り分析しています.ここにもこの本に書いてあるエッセンスがぎゅっと詰まっています.