2人中、1人の方がこのレビューが役に立ったと投票しています。
投稿者:しんしん - この投稿者のレビュー一覧を見る
500ページ近くの厚みはありますが、ビッグデータ活用が流行る現在、データのノイズに関する認識を持って活用することが重要と感じました。
電子書籍
もしムサウイの逮捕をベイズ確率の事前確立に織り込んでいれば
2015/10/24 09:45
2人中、2人の方がこのレビューが役に立ったと投票しています。
投稿者:okadata - この投稿者のレビュー一覧を見る
シグナルを見つけるのは比較的やさしい、ように見える。しかしそれがノイズだとしたら見分けられるのか。2012年にアメリカ大統領選の結果を完璧に当てて有名になったネイト・シルバーはpecotaと言う野球の分析ソフトの開発者でもある。
野球は比較的統計データーを活かしやすい分野だ。マネーボールでは統計データーを使ったセイバーメトリクス対伝統的なスカウトが対立軸として使われているが実際はどうか。pecotaは2006年の有望株の4番目にレッドソックスの名二塁手ダスティン・ペドロイアを挙げたがスカウト達の評価は低かった。「身体的に恵まれていない」と。4月.158だった打率は5月には3割を超え7月にオールスター、この年の優勝に貢献して新人賞、そして翌年MVPに選ばれた。
マネーボールのヒット以来ハーバードやエールで統計学とコンピューターを学び、普通だったら投資銀行で年収40万$で働く若者が、その1/10の年収でタンパやクリーブランドまでやって来て24時間喜んで働いてくれる。年収4万の若者はピークを超えた4000万のFA選手よりいい投資先になる。球団はFA市場で1勝当たり400万$を喜んで払う。とは言えソフトはスカウトより優秀だというような単純な話でもない。2011年シーズン、pecotaの予想したトップ選手100人はMLBで546勝を生み出した。対するベースボール・アメリカ誌の選んだ選手は630勝を生み出した。この差は86勝で3億4千万$に相当する。スカウトは統計データーも使い独自情報によるバイアスを修正することでより良い予測をすることができるのだ。
統計学の世界でノイズをシグナルと間違えることを過剰適合と呼ぶ。地震のマグニチュードと頻度は対数をとるときれいに直線に乗る。つまりマグニチュードが1大きくなると頻度は1/10になる。しかし東北の統計ではマグニチュードどが7を超えたあたりで傾きが変わり頻度が減少するように見える。この統計は1964年間からなので大地震はそもそもデーターの絶対数が少なく大地震のリスクが少なく見積もられていた=過剰適合だったかもしれないというのが著者の見解だ。同時期の世界の統計では大地震も含めリヒター則の方が適合している。地震そのものは予測できないとしても確立はそれなりの確かさで計算できる。
では具体的にどうやって予測するのかというのが後半のテーマでここでは主にベイズ確率を用いている。通常の統計ではデーターが少ないとシグナルとノイズの見分けが難しくあまり役に立たないが、ベイズ確率の考え方では事前確率を新たなデーターが得られるたびに修正していく。事件が起きてからシグナルを見つけるのは簡単だ。911を示すシグナルはたくさんあった。飛行機を使ったテロ計画はすでにあり、アルカイダの危険性やワールドトレードセンターが過去にテロの標的になったこと、そして極め付けは1ヶ月前に747機のシュミレーターを希望したイスラム原理主義者ムサウイが飛行機訓練学校の教官の通報で逮捕されている。テロの場合も地震と同様に極めて少ない大規模のテロが被害者の多くを占めている。1979年から20年間に起こったテロにべき乗則を当てはめると、今後10年間にNATO諸国で死者1万人を超えるテロが起こる可能性は10%、10万人なら3%、100万人なら0.6%となる。
地震もテロも計算の元となるデータを少し変えると大きく確立が変わる。しかし、被害が大きいのはそのごく少数のM8級以上の出来事なのだ。100万人が犠牲になるテロは1600年に1回だとしても年平均にすると625人が被害に会うことになる。ブラックスワンを無視すべきではない。
投稿元:
レビューを見る
分厚かったし、全てを細かく読み込んだわけではないが、とても面白かった。作者は、できるだけ精度の高い予測を行うために、シグナルを見つけ、ノイズを除去することを訴える。前半では野球、天気予報、地震、経済、インフルエンザの世界で行われている予測の実例が書かれている。それぞれの分野で予測の精度がどれだけ発達し、そしてどれだけ困難であるかが分かる。その後、ベイズ統計を元に、確率論的に予測を行っていく、チェスコンピュータ、ポーカーの実例を挙げる。また、金融市場や温暖化、テロリズムにおいて、どうして予測が成り立ちづらいのか、ノイズが除去しづらいのか、判断を誤ってしまうのかなどが語られる。今はビッグデータという言葉がバズワードになっている。しかしただいたづらにデータを集めるのではなく、シグナルとノイズを判断し、確率論の視点をもって世界と向き合うことの重要性を学んだ。
投稿元:
レビューを見る
統計学の天才的な実務者が、諸分野の統計の使われ方についてリサーチをし、統計の限界や可能性、統計の注意点などをまとめあげた本。処世術的な統計的マインドの方法として、「ものごとの原因を決め打ちで推定せず、複数の可能性を考慮した上でそれぞれの要因の確率を考え、それをベイズの方法で新しい情報を得るとともに事前確率を修正していく方法が科学であり、より確かな予測だ」としている。彼は科学論において、斬新的な改善を信奉し、ベイズ統計こそがあるべき統計だとする。統計的な示唆のほか、教養本としても、天候、地震、選挙、テロ、株価、マクロ経済、ギャンブルなどの諸分野の実践研究や理論研究をまとめてくれており、とても読み応えがある。
投稿元:
レビューを見る
現在、膨大な量のデータが手に入るけど予測精度が上がったものとそうでもないものがある。野球、天気、巨大地震、経済などの予測をネタにして、シグナルとノイズ、不確実性をもたらすもの、間違った予測に流れてしまうバイアスを説明している。データ分析と行動経済学を混ぜ合わせた感じの本。面白かった。
世の中を二分論で見るのではなく確率的に見る、という考え方を意識的に身につけたい。
投稿元:
レビューを見る
予測において重要なのは確率と不確実性を受け入れること。ある情報をどのように受け取らせたいかによって、伝え方は変わるもの。相関関係と因果関係の違いを意識して、情報を受け取る。
投稿元:
レビューを見る
データ狂への入門書。
シグナルを見つけ、ノイズを取り除くこと。
そして、ビッグデータ自体は何も語らない、
語るのはいつもぼくたちということ。
投稿元:
レビューを見る
元オンラインポーカーで生計を立てていた人で、政治の予想サイトとかを作った人の本なので大変面白い。ってかギャンブラーの本なのでたまに名言が入る。刺激的に読める。でも、べき乗則に習うんだよってわかるけどさあ、どうにもならんよね。
投稿元:
レビューを見る
様々なケーススタディを使って統計的手法による予測の難しさを述べた本。理論の良しあしは個人の考えに寄ると思うので、正誤の判断はしないが、統計学・予測学に多少なりとも興味があれば面白いのではないか。結論さえ知ることができれば良いのだ、と言う人にとっては、ダラダラと屁理屈を述べているような印象をうけてしまうかも。統計・予測学の本の割には数式が少ないという印象。行動経済学をかじった人は、知っているようなことが多いと思うような内容。
投稿元:
レビューを見る
レビューはブログにて
http://ameblo.jp/w92-3/entry-11831906398.html
投稿元:
レビューを見る
■予測
A.予測する際は、もっと確率と不確実性を受け入れねばならない。この点において役立つのが、条件付き確率を導き出す「ベイズの定理」だ。1 つのアイデアを違う角度から考える必要性を理解し、検証する方法を得る手がかりとなる。
B.ある心理学者によれば、専門家は「ハリネズミ」と「キツネ」の2 つのグループに分類できる。
・ハリネズミ:大きな考えを信じ、社会には基本原則があると信じている。大胆な予測をするのでよくメディアに登場するが、予測する能力はキツネより劣る。
・キツネ:これといった原則を持たず、問題に向けて様々なアプローチを試みる。より良い予測を行うが、メディアにはなじまない。彼らは多くの問題は予測困難だという信念を持つため、自信なさ気に見えるからである。
C.学者の中には、積極的に表に出たがる人がいる。彼らは自信たっぷりにドラマチックな変化が起こると言いたがる。そうすれば注目される。つまり、ハリネズミのように大胆な予測をすれば、テレビに出やすくなるのだ。
D.キツネはテレビやビジネス、政治の世界になじまない。多くの問題は予測困難であり、不確実性には率直に向き合うべきだとする彼らの信念は、自信のなさと受け取られてしまうからだ。
投稿元:
レビューを見る
著者はマネーボールで有名になった予測モデルPECOTAの開発者です。テーマは面白いんですけど結論が明確には書かれていないですね。。。 どの章から読んでも入れる感じです。個人的に興味を引いたのが、チェスの人間対ソフトウェア対決(9章 機械との闘い)のところと、マネーボールは何を語ったのかその後10年経った今(3章)のところです。
チェスは奇天烈な人形ターク(これはこれで一冊の本にまとまっています『謎のチェス指し人形「ターク」』)から始まり、カスパロフに勝つためにディープ・ブルーが専用にカスタマイズされていく様子がドラマチックに述べられ、その過程で6手〜8手の先読み程度と思われていたディープ・ブルーの読みの深さが、実はもっと先の20手ぐらいまで読んでいるらしいということ。ディープ・ブルーの繰り出す奇策が、もはやソフト開発者でもバグによるものなのか新機能なのか判断できない次元へ到達した点が書かれています。怖さを感じますが、盤上ゲームのように明確に定義されたルールのもとで繰り広げられる計算処理はコンピュータソフトウェアの得意領域のため、もはや人間が勝つ余地は残されていないでしょう。
もう一方、野球の方は絡み合う条件が複雑ゆえに、マネーボールから10年経過してもスカウトの雇用が不要になったという事実はなく、ソフトウェアによる統計分析と従来からのスカウトとのハイブリッドな取り組みをとるチームがほとんどという話です。PECOTAと肩を並べる優れたソフトが複数存在し各チームで使用されており、いつ抜きん出たソフトが登場して来ても不思議ではない状態らしいです。
投稿元:
レビューを見る
2012年の大統領選において全米各州の結果をあてて日本でも話題になった538(five-thirty-eight)の主催者であるネイト・シルバーが語る「データを用いた予測」の方法論。
こう書くと、なにやらすごい定理や発見が書いてあるのか、と思いきや本書はそういった類の本ではなく、考え方やそもそもどういったルートを経て今のような考え方にいたったのかということを丁寧に記している(きっかけはもはや古典になってしまったセイバーメトリクスなわけだが)。なので、最初に本書を開いた僕のように「アカデミックな」アプローチがこれでもか・・・と書いてあることを期待した層にはちょっと期待外れかもしれない。
では、僕が本書を楽しめなかったというとそんなことはなくて、凡百の「ビッグデータ本」なんかなくても、これ一冊があれば十分なんじゃないか・・と思うぐらいこの本は気にいった。結局この本が言っているのはデータの中で「ノイズ」と「シグナル」を正しく選別し、そのストーリーを考えましょう、ということにほかならない。結局これが出来ずに本書で言うところの「特性適合」に陥ってしまっている例と言うのはかなり多い。
ノイズとシグナルをどう読み分けるかという、その根っこのところはあまり深く書いてないし(そこがまさしく著者の競争力の源泉だから仕方ない。もしかしたら言語化できないかもしれないし)、この一冊を読んだからと言ってベイズ統計学が出来るようになるわけではないのだが、少なくともこういう内容が広まれば予測するとはどういうことか・・・というのがもっと落ち着いて議論できるようになるのではないだろうか。
投稿元:
レビューを見る
著者は「マネーボール」でも取り上げられた、野球データ分析会社で予測モデルを立ち上げ、2008年の米大統領選では50州のうち49州の結果を的中させたデータアナリスト。
本書では天気予報、地震予知、パンデミックの拡散など多くの社会的な取り組みをケースとして、如何に成功事例などの過剰適合がノイズになり得るか、あるいはどのような波形にこそ注目されるべきなのかに迫る。
データ処理ではなく、データサイエンスが備えているべき未来に触れられるといっても過言ではない一冊。
投稿元:
レビューを見る
データを使う場合のみならず、物事の見方を示唆する内容になっていると思う。決して読みやすい訳ではないけど、事例は面白い。予測ってそういう捉え方を前提でするもんだよね。というのが腹に落ちる。