投稿元:
レビューを見る
ビッグデータによってこれまでのスモールデータと何が変わるのか、わかりやすく解説してくれる良書。データ解析技術やプラットフォームではなく、データそのものの価値を論じている。
8章のビッグデータのもたらすリスクについてもわかりやすい。課題はデータの2次利用をどう許諾を得て、誰が責任を取るのか。この部分は社会的な議論がもっと必要だと感じる。
投稿元:
レビューを見る
ビッグデータではデータに語らせろ、相関関係がわかれば因果関係は関係ない、そのために、最終的に重要なのはいかにデータを持つかであえる、という立場から解説した本。
その立場自体は良いのだが、以下2点に関して語られておらず、その意味で視点がやや一方的にも思える。
(1) データが「語ってくれる」ためには、例えば、相関分析をする際にはどのような説明変数を導入するべきか、(アマゾンのお薦め分析のような)機械学習をする際にはどのようなアルゴリズムを用いるべきか、というようなことを実際上は考える必要がある。その意味においてある程度の仮説立案や結果に関する検証は必要であり、そのような「スキル」を軽視することはできない。
(2) アマゾンが書籍をおすすめしたりインフルエンザの影響を予測する程度ならば相関分析でよいのかもしれないが、データ分析を経営判断などに活用しようとした場合には(何をどうすれば利益増・売上増・コスト減につながるのか、など)、やはり因果関係を知る必要がある
ビッグデータがもたらす将来を比較的具体的に考察している点や、歴史上の出来事と比較しながら分析している点に関してはとても興味深い。
比較的読みやすく(部分的に、翻訳のためかひっかかる箇所はあるが)、ビッグデータをビジネス上の観点から知る上で相応に良い本だと思う。
投稿元:
レビューを見る
最近流行りのビッグデータについて。
中心的な話題は、ビッグデータは(数学的に)どのような手法で宝を見つけるかということよりも、どのようにビッグデータを使うかということ。
ビッグデータの具体的な例を交えて説明している。
本書を読んだ結果、ビッグデータという分野をあまり好きになれない。
理由は2つ。
1つは、どんなデータでも、ある程度数学の素養があれば、あるデータ間の相関関係は見つけることができるだろう。いわんや、ビッグデータと呼ばれる、巨大なデータの集合ならば・・・
が、これらの相関を見つけるのがビッグデータの本質なのだろう。
つまり、どんなデータでも都合よくデータを解析すれば、ある程度のアウトプットは見つけられるのです。
従って、そのアウトプットが正しいことを検証する必要があると思います。
そこで、2つめ。
ビッグデータで評価された結果(相関)については、因果関係を問わないという風潮なのだとか。
これは科学ではない。なぜならば、科学とは反証可能性を有する必要があるからである。
しかしながら、ビッグデータのアウトプットは、複雑すぎてどのような計算結果から因果関係が出てきたのか調べることができない(著しく困難)。さらに、できたとしてもこじつけでしかない。
例えば、アメリカではハリケーンが近づと、あるお菓子(ストロベリー味!)の売り上げが伸びるそうだ。
なるほど。ビジネスをする限りでは因果関係なんて必要ない。
全てはデータが語ってくれるのだから。
しかし、エンジニアとして考えを述べると理由が必要なのです。
全ての物事には因果関係があるのです(あるはずなのです)。
なぜ、特定のお菓子の、特定の味の売上が伸びるのだろうか。。。
この「なぜ」を突き詰めるのが面白いのですが、結果が使えれば全てよし。という姿勢。
話がそれたが、ストロベリー味のお菓子の売り上げが伸びるのはハリケーンが来るからなのか、そこに別の隠れたパラメータがあって、それがハリケーンと関係があり、結果として、お菓子が売れるという可能性もある。
が、反証できないし検証もできない。
再度いうが、ビジネスという純粋に利潤を追い求めるのであれば、それはそれで価値があると思うが、科学として興味の対象とはなりえないと思います。
投稿元:
レビューを見る
内容の重複が多く,冗長な感じはしたが,
新たな知見を得ることができ,面白かった。
【備忘録】
第1の変化「すべてのデータを扱う」
「N=全部」の世界
第2の変化「精度は重要ではない」
量は質を凌駕する
第3の変化「因果から相関の世界へ」
答えが分かれば,理由は要らない
投稿元:
レビューを見る
*****
ビッグデータに変わることによって「相関関係」から得られる仮説の精度とバリエーションが膨大になる。そのためのバックエンドを準備する重要性はあるが、それ以上にどう活用し、なにを目指すのかが大事。
*****
データを保有する会社がやはりバリューチェーンの中で優位性を持つようになるのか。
*****
投稿元:
レビューを見る
※付箋箇所
バラバシの、集団外部に接点を持つ人が集団内の交友関係を盛り上げているという研究結果(p.53)
企業の無形固定資産にデータの価値をどう反映していくか(p.183)
とても参考になる内容だったが、最後に人間性に言及していくくだりがちょっと強引に感じた。
投稿元:
レビューを見る
バズワードである「ビッグデータ」をテーマに扱った本を数冊読んだが、これが一番。ただの事例紹介ではなく、ビッグデータの本質をつかもうとしている。
面白い。
--
引用:
「MapReduce」や「Hadoop」といった新型の情報処理技術が生まれている。その結果、きれいに整理された表や従来型データベースには入りきらないほどの大量のデータでも管理できるようになった。
ビッグデータは、人々の意識に3つの大きな変化をもたらす。まず1つめは、あるテーマに関して、一部のデータや統計的なサンプルで済まさず、すべてのデータを分析できるようになることだ。2つめは、正確さにこだわり続けるのではなく、現実世界の乱雑なデータにまっすぐ向き合おうとする意欲である。3つめは、つかみどころのない因果関係を追い求めるよりも、相関関係を積極的に受け入れる発想の転換だ。
投稿元:
レビューを見る
「世界を変える」と言われているビッグデータ。
一体それは、何なのか。
ビッグデータにできること・できないこと、そしてその仕組みから(主にビジネスでの)活用法まで、さらには、そのリスクと正しく扱うためのルールも提案した、ビッグデータ入門編。
すべてが保存可能となり、データ化され、分析されていく未来。私たちは、個人として、人としての尊厳を守ることができるのでしょうか。
それとも、SF映画のような監視社会が待っているのでしょうか。
この先避けて通ることのできない「ビッグデータ」とのつきあい方を、どう捉えるべきか。私たちは、その有用性とリスクを充分に吟味する必要がある…そんなことを考えさせてくれる一冊です。
【今月のおすすめ/2013年8月】
投稿元:
レビューを見る
ビッグデータの正体
【認識】
1章:
蓄積されたデータから有益な情報抽出、そこから導きだされる確率による意思決定が今後の潮流になる。
2章〜3章:
データの偏り(無作為にデータを選んだつもりが例えば10代の若者ばかりのデータが集まってしまったみたいなこと)は考えずに済む。
4章:
これまで因果関係よりも相関関係の方がビジネス上 大事。
5章:
なんでもかんでもデータ化しよう。
6章:
なんでもかんでもデータ化し、それを持っている企業は価値があるかもね。
7章:
大量のデータを使うビジネスの分野はどのような物がでてくるか。
8章〜9章:
ビックデータが進むことによる問題点
10章:
まとめ
【対象】
ビッグデータとは何かを知らない人
ビッグデータの活用例を知りたい人
確率による意思決定を進めたときのビジネス領域の範囲を知りたい人
そのときの問題点を知りたい人
【感想】
良い点:
ビッグデータを使用した適用事例が数多く引用されており、ビッグデータを使用するとどのようなことが実践できるか、概要をつかめる。
ビッグデータによって変わった点を統計を知らない人に対して分かりやすく説明している。
悪い点:
ビッグデータ世界の良さのみを語って、メリットデメリットが運用後の話しかされていない。
ビッグデータの背景にある考えは統計の話で、それについてもランダムサンプリングの問題しか言及していない。
ランダムサンプリングはデータの偏りを無くすためのものだが、データの取り方に失敗すると問題が出てくる。
しかし逆に言えば、データの取り方に失敗さえしなければ、ビッグデータを使用するときと同等レベルの精度で同じ結果を導きだせる。
ビッグデータを使用するメリットは予測することであり、導かれた関係の因果は考慮しないという前提がある。
このような新旧の技術の比較をせず、ビッグデータを手放しで賞賛する書かれ方は納得いかない。
ビッグデータはツールを導入するコスト、データを集めるコスト、解析するコスト、といった様々な問題がある。
それらの問題をかかえて、なおメリットを享受できるか考えなければならない、ということが書かれていない。
投稿元:
レビューを見る
過不足なく、読みやすい内容。
南カリフォルニア大学のマーティン・ヒルバートによると、2007年には300エクサバイトのデータが記録されたという。これらを本来の目的とは異なる、二次利用をすることによって可能性は多いに広がる。
例えば、検索語のスペルミスはスペルチェッカーに流用されるし、インフルエンザの流行はグーグルの検索語45語の組み合わせを見ることでほぼリアルタイムに把握できる。妊娠すると三ヶ月目から無香料のローションを購入し始め、マグネシウムやカルシウム、亜鉛などのサプリを買うようになる。これら購買データから出産予定日も結構正確に分かるらしい。
著者によると、ビッグデータの扱いは3つの特徴があるという
1)ビッグデータは標本抽出ではない。全てを扱う。
統計学的には標本の結果は母集団の結果を正確に予測するが、無作為抽出というのは難しい。固定電話を使った聞き取り調査では携帯しかもっていないリベラルな層が外れたり。
2)正確性は重要だが過度にこだわる必要はない。量は質を凌駕する。
3)必ずしも因果関係を要求しない。相関関係が見つかるだけで十分な場合が多い。オレンジジュースとアスピリンで癌が治るのであれば、それでよい。理由は必要としない。
世の中を理解するうえでは、ある現象について中身のある有効な仮説がなくてもいいのだ。見込み違いが起こりやすい仮説主導型と違い、ビッグデータによる相関分析はデータ主導型だ。偏りも少ないし、精度も高い。
マイノリティレポートのように、犯罪の可能性などにより処罰される可能性、プライバシーの秘匿が難しい(名前を削除したデータも、いくつか組み合わせることでほぼ個人を特定できる)など、ビッグデータの問題点についても提起されている
投稿元:
レビューを見る
バズワードとしてのビッグデータ本の中では一番マトモな内容ではあると思います
時期的にはずれますがGoogleクラウドの核心と合わせて読むことをお勧めします
投稿元:
レビューを見る
ビッグデータとはどのようなものか。また、ビッグデータ活用による未来、ビッグデータに起因する闇について書かれている。
投稿元:
レビューを見る
ビックデータの利用について、とてもワクワクしました。ビックデータの有効性は、未来を切り開く道しるべになりますね。利用シーンを考えると、ワクワクせざるを得ません。みんなで研究しようと思います。
投稿元:
レビューを見る
「ビッグデータ」というBuzzwordが独り歩きし、関連書籍は事例とエクサデータ到来の礼賛が多い。その中で本書はタイトル通り「ビッグデータの正体」を的確に書き表している。
特徴として挙げられている3つの点、1つは「母集団Nが全部になる」、2つめに「量が質を凌駕しノイズは無関係になる」、最後に「因果ではなく相関が最重要になる」は、ビッグデータの解説として最も納得にいくものであった。それらを可能にした「データフィケーション」も19世紀の海図を例示に持ってきたのは面白い。
本書を読むにあたっては統計学の基礎知識(歴史的発展)があることが望ましい。「標本調査」「因子分析」の制約事項が取り除かれる衝撃度合いとどういった可能性をもたらすかがよく分かる。
ビッグデータ関連書は幾つか読んだが、最もおすすめである。
投稿元:
レビューを見る
最近何かと話題のビッグデータ。
ヤフージャパンでは「Yahoo! JAPANビッグデータレポート」と称して、ビッグデータを用いて様々な選挙予想をしています。
本書はそのビッグデータをテーマにしており、ビッグデータの実用化例等を豊富に引用しながら、
・ビッグデータは社会をどのように変えていくのか
・19世紀の海図とビッグデータとの関係
・株式市場ならぬデータ市場の登場など、データの"金融"商品化
・ビッグデータ時代の3勢力(データ保有者、データ分析のスペシャリスト、独創的なデータ利用のアイデアを持つ個人・企業)の力関係の将来予想。
等を解説しています。
そして最後の9章、10章でビッグデータ濫用のリスクとそれを防止する為、企業監査にとっての公認会計士に相当するビッグデータ監査者、「アルゴリズミスト」創設等の提言を行っています。
本書によれば、ビッグデータは社会を激変させる力があるとの事で、この予想される社会変化を活版印刷普及に伴うヨーロッパ社会の変化と比較しながら「激変」への対応策を考察しています。
また、ビッグデータ時代にはこれまで"ゴミ"とされてきたデータが宝の山に変化すると述べるとともに、同様にゴミデータを生かして当時では画期的な海図を作成した19世紀のアメリカ海軍士官の例を引用し、
ゴミデータから新たな価値あるデータを作り上げる事自体は昔から行われてきた事であると指摘しています。
つまり現在と過去との違いは、技術発展に伴いこれがやりやすくなったと言う点だけであり、ビッグデータ利用の本質は昔から存在していると主張しています。
欧米で先行している(少なくとも私にはそう見えています)ビッグデータの実用化例を豊富に紹介するとともに、過去とのつながりと言う観点でビッグデータを解き明かし、これがもたらす社会変化への対応策を考察している点が印象的な本書。
今後、ビッグデータの利用は加速される一方でしょうから、本書を読み、ビッグデータとは何かと言う点について理解を深めるのも良いかも知れません。