投稿元:
レビューを見る
重要そうなフレーズ書き出しました。前後読まないと意味不なところもありますが、まぁなんとなく全体像がわかるかと。
第1章 世界を変えるビッグデータ
・小規模ではなしえないことを大きな規模で実行し、新たな知の抽出や価値の送出によって、市場、組織、さらには市民と政府の関係などを変えること。
・ビッグデータ「3つの大変化」とは「ビッグデータは限りなくすべてのテータを扱う」「量さえあれば精度は重要でない」「因果関係ではなく相関関係が重要になる」という3つの変化のこと。
・データは大きな事業資産であり、経済を回す重要な資源であり、新たなビジネスモデルの土台となる。
第2章 第1の変化「すべてのデータを扱う」
・標本では特定の下位集団をクローズアップして拾うことが出来ない。
・ビッグデータは、必ずしも絶対数で「ビッグ」である必要はない。結果としてビッグになりやすいだけ。
・データ全体を利用すること、それがビッグデータの条件。
・全データを確保して利用したほうが有効な例は増えているし、かつては不可能だったことも可能になっている。
第3章 第2の変化「精度は重要ではない」
・数字から精度を読み取るのではなく、確率を読み取るのがビッグデータ。
・「シンプルなモデルと膨大なデータの組み合わせは、データ量がわずかで手の込んだモデルを凌駕する。」
・無理してまで精度を高めることに経済的な合理性が見いだせない。
・従来のような標本抽出と精度第一主義の手法では要求される情報鮮度が満たせない。
第4章 第3の変化「因果から相関の世界へ」
・相関からわかるのは、確実性ではなく、見込みだけ。
・世の中を理解するうえでは、ある現象について中身のある有効な仮説が無くてもいい。
・相関は「理由」ではなく「答え」しか教えてくれないが、それで十分なことが多い。
・相関はひらめきを与えてくれるだけでなく、そこから得られるヒントが比較的わかりやすい。だた、そこに因果関係を持ち込もうとすると、せっかくのヒントが往々にしてぼやけてしまう。
・できる限りデータを集め、一部ではなく、すべてのデータを使う。基本方針として正確さ一辺倒ではなく、乱雑さを受け入れる。そして、予測に当たって因果関係を完全に把握できていなくても、相関関係を信頼する必要がある。
・ビッグデータは「理論の終焉」を引き起こすわけではないが、物事の解釈の仕方を劇的に変えることは確か。
第5章 データフィケーション
・現象のデータ化とは、現象を数値化(定量化)された形式に変換し、集計・分析が可能な状態にすること。
・英国の自動車保険の中には、年齢、性別、過去の実績に加えて、実際の走行場所や走行時期・頻度なども勘案して保険料を決めるシステムがある。過去のリスクデータではなく、ドライバー自身の行動を元に算定するだけに保険のあり方を根底から変えてしまう。
・米国の大手運送会社UPSは、位置情報をさまざまな形で活用。分析プログラムの導入により大きな効果を得る。2011年、走行ルー��総距離を4800万キロメートルも短縮。ガソリンにして600万リッター、CO2排出量にして3万トンもの削減に成功。また、右左折が少ないルートをアルゴリズムで特定して、安全性や業務効率を向上。
・予測によって知識が身につく。しかし、大切なのはそこから先だ。システムが非常に賢くなると知恵や洞察力が生まれる。
・「リアリティマイニング」なる手法。携帯電話から収集した膨大なデータを処理して、人間の行動を推論・予測する手法。ある調査では、行動と通話パターンを分析したところ、インフルエンザ感染者本人が自覚する前に感染者を特定することに成功。
・データの活用はまだ揺籃期。フェイスブックの場合、ユーザのデータの新たな使い道を早い段階からあれこれ大っぴらにすると、ユーザを不安に陥れかねないとの理由から、虎視眈々とタイミングをうかがっている。しかも、収集データの量や種類に対して、どのようなビジネスモデル(と個人情報保護方針)を構築するのか、まだ完全には固まっていない。同社に対する批判の多くは、データを利用した実際の活動云々よりも、どのようなデータが収集されているかわからない点に集中。
・既に多くの企業が、感情分析などの手法、ツイートを分析し、顧客の声の収集やマーケティングキャンペーンの効果判定に生かしている。
・2011年の『サイエンス』誌に掲載された調査によると、84ヶ国に広がるユーザ240万人が2年間に投稿したツイート5億900万件を分析したところ、1日の間に人々の気分が変化するパターンも、1週間に変化するパターンも、文化圏の違いに関係なく、似ていることがわかった。かつては得られなかった事実だ。かくして人々の気分はデータ化されている。
・ペンシルベニア州のマーセル・サラテ(生物学)とソフトウェアエンジニアのシャシャンク・カンデルワルは、ツイートを分析して、予防接種に対する人々の考え方と、インフルエンザ予防接種を実際に受ける可能性が一致していることに気づいた。ここで重要なのは、ツイッターのフォロワーの間で誰と誰がつながっているかを示すメタデータを使った点。予防接種を受けていない一定の集団が存在することに気付く。
・データを分析すれば、個人から社会全体まで世の中のあらゆるレベルのありようを浮かび上がらせることができる。
・世の中には、「自己定量化」というムーブメントがある。自分の身体や生活のあらゆる要素を計測して充実した人生を送ろうという運動。
・これからの盛大は「ビッグデータ意識」が高くなるはずだ。あらゆる行動には数値化できる要素があり、社会が成長するためにはデータが不可欠と考えるようになる。現実のあらゆる面をデータに置き換えるという発想は、今の人々にとってずいぶん斬新に聞こえるかもしれない。しかし、将来はそれが当たり前になるはずだ。
・しかし、当面の間、データ化の先進事例は、ビッグデータで新たな価値を生み出すビジネス分野が中心になる。
第6章 ただのデータに新たな価値が宿る
・同じデータの使い回しだけでなく、いろいろな目的に何度でも利用できる。これはビッグデータ時代の情報の価値を考える上で、非常に重要なポイント。
・データに秘められた本当の価値は、最初の��的に照らしたときの価値をはるかに上回る。
・データの価値とは、あらゆる用途でもたらされるすべてを指す。用途が無限に広がるということは、言い換えれば、それだけ選択肢があることを意味する。その選択肢の総計がデータの価値だ。「オプション(選択肢)価値」とも言える。
・大半のデータは時間の経過にともなって有用性が低下する。だから、古いデータに依存し続けると、新たな価値を生み出せないばかりか、新しいデータの価値まで損ねてしまう。
・常に手元のデータの手入れを怠らず、価値がなくなったデータがあれば処分する必要がある。では、利用価値がなくなったデータをどう見分けるのか。経過時間だけで判断するのは非常に危険。
・電子ブックリーダー。アンダーラインを引いたり、余白にメモを書き込んだりするたびに端末が記録している。これだけの情報を収集できれば、長らく孤独な活動だった読書が一種の集団的な体験に変わってしまうのである。
・IT系出版社オライリーを経営するティム・オライリーは、データが新しい商品やビジネスモデルの構成要素になることから、「データはプラットフォーム」と指摘する。
第7章 データを上手に利用する企業
・ビッグデータ企業と言っても、どういう価値を提供するかによって3つのタイプに大別できる。データ型、スキル型、アイデア型だ。
・ビッグデータというダイヤモンド鉱山でコツコツと採掘に励み、報酬を手にする。しかし、掘り出したダイヤモンドはデータの持ち主のものなのだ。
・ビッグデータの揺籃期にある現在は、アイデア型とスキル型に一番大きな価値がありそうだ。だが、最終的にはデータ型企業の価値が最大になるはずだ。その理由として、データを使ってできることがもっと増える点、ならびに、データの保有者がその潜在的な試算価値を的確に評価できるようになる点が挙げられる。その結果、データ保有者がデータを内部に囲い込む可能性が高い。外部に提供するにしても、利用料をつり上げるはずだ。
・データ保有者の長期的な台頭には、注目すべき重要な側面がある。複数の情報源からデータを収集・集約して、画期的な用途を生み出す「データ仲介業者」の登場だ。
・マサチューセッツ工科大学(MIT)スローン経営大学院のエリック・ブリンジョルフソン教授(経営学)ら研究チームは、データ主導の意思決定を得意とする企業の業績を調べ、他の企業の業績と比較検討した。その結果、全社は生産性が6%も上回っていた。データ主導型企業にとっては、ライバルに水をあけることができる。もちろん、多くの企業がビッグデータ型のビジネスを採用するまでの短い命ではあるが。
・質量なき規模
第8章 リスク-ビッグデータのマイナス面
・困ったことに、人間は世の中を因果関係で捉えようとする癖がある。ビッグデータも例外ではない。いつ因果関係を見る道具に濫用されてもおかしくない。またビッグデータ予測さえあれば、有罪かどうかの決定の際に、はるかに素晴らしい判断が可能になるという幻想がうまれても不思議ではないのだ。
・ビッグデータによって我々の生活は細かく監視されるため、法的なプライバシー保護手段では時代遅れになりかねない。また、技術的���手法で匿名性を確保したつもりでも、情報が漏れかねない。個人に関するビッグデータ予測は、実際の行為ではなく、傾向や習性で罰する道具に使われる恐れもある。そうなれば、自由意志は否定され、人間の尊厳も破壊される。
・ビッグデータにコントロールされるのではなく、我々がビッグデータをコントロールするにはどうしたらいいのか。
第9章 情報洪水時代のルール
・世はビッグデータ時代に向かっている。かつてと同じように社会では地殻変動が起こるはずだ。すでに我々の暮らしや考え方はビッグデータによって大きな変化が見られる。ビッグデータをどう発展させていくのか、問題があればどう抑えこんでいくのか。基本原則から見直していかざるを得ないが、印刷革命のころに生きた人々と違い、我々がビッグデータに適応するための時間は何百年もない。せいぜい数年だ。
・ビッグデータ時代のガバナンスを徹底し、ビッグデータのマイナス面を封じ込めるには、どうすればいいか。既存ルールにちょっと手を加える程度では不十分であり、枠組みそのものを壊すくらいの大胆な取組が必要だ。
・ビッグデータ時代には、これまでと大きく異なるプライバシー保護の枠組みが必要だ。それには、データ収集時に個別に同意を求める形よりも、データ利用者に責任を負わせる形が望ましい。そのような仕組みになれば、企業は、個人情報が処理される際、個人にどのような影響が及ぶのか慎重に検討したうえで、データ再利用を正式に評価することになる。
・「アルゴリズミスト」。この新しい職業は、コンピュータサイエンスや数学、統計学の分野の専門家であり、ビッグデータによる分析・予測の評価役を担う。会計士と同様に、公平と機密保持を旨とし、情報源の選択、分析・予測ツール(アルゴリズムやモデルを含む)の選定、分析結果の解釈について評価する。紛争が起こった場合には、使用されたアルゴリズムや統計手法、データセットを調査する。
・反トラスト法は、対象分野を拡大しながらも見事に発展してきた。特定の技術を優遇することもなかったし、これ以上ないというくらい効果的に競争を守ってきた。その意味では、実にたくましい法律である。恐らく、鉄道王の暴走を食い止めたときと同様に、ビッグデータでも力を発揮するはずだ。世界屈指のデータ保有者である政府も、保有データの公開を迫られるだろう。すでにその流れは一部で始まっている。
・「個別同意方式のプライバシー保護から利用者責任制へのシフト」、「予測に人言の関与が確実に含まれていること」、「ビッグデータを監査人に相当するアルゴリズミストの配置」
・原子力からバイオまで多くの分野に言えることだが、人類は最初にツールを作り出し、やがてそれが我々に害をもたらしかねないことに気付く。その後、ようやく安全性確保の仕組みづくりに乗り出す。ビッグデータも、絶対的な解決策のない難題をいずれ我々に突きつけることになる。世の中をどう統制するのかという永遠の課題だ。この強力なビッグデータ技術の危険性を評価し、技術の発展を支えながら、利益をしっかり享受することが我々に与えられた使命である。
第10章 ビッグデータの未来
・情報化社会ということがが聞かれるよう��なって久しいが、ビッグデータは真の「情報化社会」の到来を意味する。ついにデータが主役になるのだ。我々が蓄積してきたデジタル情報は、ついに斬新な方法でまったく新たな用途に生かされ、そこから新しい価値が生まれるのである。しかし、そのためには新しい考え方が必要だ。そして、我々の慣習はもちろん、自らのアイデンティティさえも変わってしまう。
・まだ、大半の人がビッグデータを技術の問題と捉えていて、ハードウェアやソフトウェアに目を奪われている。本当に注目すべきは、データ自体が語り出したときに、いったい何がおこるのか、である。
・相関関係は、因果関係と比べて、時間的にもコスト的にも見つけやすい。とはいえ、これからも因果関係の研究は必要だし、医薬品の副作用実験や航空機用部品の設計など、一部の用途ではしっかり吟味されたデータによる対照実験も不可欠だ。しかし、多くの日常的な用途では、「理由」ではなく「答え」がわかれば十分だ。しかもビッグデータから見つけ出した相関関係は、因果関係を探るうえで道しるべにもなる。
・我々は、新しいことを上手に、素早く、たくさん成し遂げる力を手に入れた。そこには、とてつもない価値を引き出す可能性が秘められており、新たな商社と敗者を生み出すはずだ。データの価値の大半は、2次利用から生まれる。だから、どのようなタイプのデータでも、なるべく多く集めておき、新たな価値を生む限りは保有し続けるのが賢明だ。また、自社よりもk価値を的確に引き出せる組織があるのなら、その組織に分析の機会を提供する発想も大切だ。もちろん、分析によって得られる利益の分配が前提となる。
・人を見るときに、実際の行為だけでなく、データが示唆するその人物の特徴や性格・習性までも判断材料にしてしまう危険性だ。ビッグデータによる予測の精度が上がるにつれて、社会が個人に対していわれなき制裁を加える恐れがあるのだ。その制裁の理由とは、ビッグデータで予測される行為出会って、本人が実行していない行為である。
・ビッグデータは資源であり、ツールである。何かを説明するものではなく、通知するのが目的だ。理解の助けになるものではあるが、使い方次第で誤解を招くこともある。たとえビッグデータに驚くべき力があるにしても、本来的に不完全なものであることを忘れてはならない。
・世の中には膨大な情報が存在するが、実際に収集・処理できるのは常にごく一部に過ぎない。つまりそうやって集めた情報は、現実の真の姿とはいえない。完璧な情報を用意することは不可能なため、予測にはどうしても誤りが付き物だ。しかし、だからといって予測が間違っているわけではない。常に不完全ということだ。ビッグデータは究極の答えを出す道具ではないのである。
・現時点ではビッグデータから得られるのは、十分と言えるレベルの答えだ。むろん、今後もっと優れた手法が登場し、ずっと精度の高い答えが得られる可能性もある。それでもビッグデータというツールを使うときに常に忘れてはならないことがある。それは、十分に謙虚な姿勢と人間性だ。
投稿元:
レビューを見る
話題になっているのがわかる感じの一般向けビッグデータ入門の良書かと。テクニカルなことをよく理解している人でも、全体を俯瞰するという意味で一度目を通しておくとよいのでは。
巷でビッグデータは既存のデータベースシステムで処理できない規模と性質のうんぬんとか、3V(Volume、Velocity、Variety)とかいう説明をよく見かけるが、それは正確じゃなくて、モデル化が難しい未知なる知見を含むデータから知識を取り出すことが本質である。全量解析(無作為標本から「N=全部」の世界へ)、因果関係から相関関係へ(仮説主導からデータ主導へ)、というビッグデータをとりまくトレンドが丁寧に述べられている。
マクナマラの呪い、マイノリティレポート的近未来を回避できるかという点に関して、研究者・技術者のみららず社会的議論が必要である。
投稿元:
レビューを見る
ビッグデータに関する書籍は数あるが、個人的には一番納得感がありしっくりきた。ビッグデータってみんな言っているけど、あいまいな言葉だなと感じていたが、この本の考え方は僕の間隔ともあっていて腹落ち。
投稿元:
レビューを見る
今話題のビッグデータについて、多様な角度から分析した本。
第8章、第9章のビッグデータのリスクとそれに対する対策を論じる部分が出色。ビッグデータはただのIT分野内での変革にとどまらず、グーテンベルクによって活版印刷が発明された時の様に、人・社会の価値観まで大きく変えてしまう可能性があると指摘されており、衝撃的だった。
前半でビッグデータでしかなしえない先進事例、後半で上述のようなリスクといったマイナス面についても事細かに書かれており、プラスマイナスのバランスが取れた良い本だと感じた。
密度の濃い本なので、折に触れ振り返りたい。
投稿元:
レビューを見る
Nが全数なのが標本抽出とは絶対に違うんだってところは違和感があるなあ。統計の知識は必要だし、センシングされるのが全数って考えたところで統計的な処理はするわけだし。因果関係>相関になるのだ。理由はいらないんだってところは合意するんだけど(もともと統計の話で因果と相関を見誤っちゃだめだみたいな話が全く理解できなかったので)これは、Nが全数だからってことはないよねたぶん。あと最後の方で自由意思が大事なのだ。それじゃないと人間じゃない!みたいなところは笑える。ばかじゃねえの?一切空でしょみたいな。でも確かに刑法制度の根幹が崩れる話ではあるので、一神教の人たちは理屈付けなきゃいけないから大変だね。その点推定無罪がもとからなくてこいつ怪しいし危ないからとりあえず捕まえとこうってやって自白させちゃう日本ではどういう展開になるのかな?と不思議。特に自由意思がなくなるので大慌てっていう話を最後の方にもってくる発想が僕には全くないのでとても興味深く読みました。でも本の内容は事例集によってむりやりにキャッチフレーズに結び付けるって感じの本なのではっきり言って眠い。でもみなさんの評価が高いね。
投稿元:
レビューを見る
ビッグデータとはネット利用における個人の情報の集積ということがわかる。さらに、因果関係ではなく、相関でものが語られ、そこで個人も確定されてしまうという影の部分も説明されていた。これを参考に卒論が出来るかもしれないし、SNSについての参考文献にもなるであろう。
投稿元:
レビューを見る
mapreduce, hadoop
ビッグデータの3つの大変化
限りなくすべてのデータを使う
量さえあれば精度は重要でない
因果から相関の世界へ(原因と結果をもとめる古い退出からの脱却)
データの相関関係を見附、それに合わせて行動すること
culturomics 膨大な文献資料を材料に、語彙などの変化を定量分析し、文化の潮流や人類の営みを分析する学問
投稿元:
レビューを見る
ビッグデータという単語とか、どんなものに使われているか漠然と知っていたけど
統計の新たな考えと言うことは理解できた
データの量だけでスモールデータとビッグデータに分けられるわけではない
要はサンプル解析かN=全件の違い
可能性は今のところ未知数
活かすも殺すも法整備によるところが大きそうですねぇ
投稿元:
レビューを見る
「限りなく全てのデータを扱う」・「量さえあれば精度は重要ではない」・「因果関係から相関関係へ」といった切り口で『ビッグデータ』を解説していく。そして、そのビッグデータが影響を与える社会、人間の未来までを予想する。
投稿元:
レビューを見る
理由はなくても当たればいい!
ビッグデータについてざっと知りたいならちょうど良い。
事例も豊富で面白かった。
図書館に予約したのだが,待ちが多すぎて,いつ届くのかと思っていたら,職場にあったので,借りて読み始め。
投稿元:
レビューを見る
ビッグデータによってこれまでのスモールデータと何が変わるのか、わかりやすく解説してくれる良書。データ解析技術やプラットフォームではなく、データそのものの価値を論じている。
8章のビッグデータのもたらすリスクについてもわかりやすい。課題はデータの2次利用をどう許諾を得て、誰が責任を取るのか。この部分は社会的な議論がもっと必要だと感じる。
投稿元:
レビューを見る
ビッグデータではデータに語らせろ、相関関係がわかれば因果関係は関係ない、そのために、最終的に重要なのはいかにデータを持つかであえる、という立場から解説した本。
その立場自体は良いのだが、以下2点に関して語られておらず、その意味で視点がやや一方的にも思える。
(1) データが「語ってくれる」ためには、例えば、相関分析をする際にはどのような説明変数を導入するべきか、(アマゾンのお薦め分析のような)機械学習をする際にはどのようなアルゴリズムを用いるべきか、というようなことを実際上は考える必要がある。その意味においてある程度の仮説立案や結果に関する検証は必要であり、そのような「スキル」を軽視することはできない。
(2) アマゾンが書籍をおすすめしたりインフルエンザの影響を予測する程度ならば相関分析でよいのかもしれないが、データ分析を経営判断などに活用しようとした場合には(何をどうすれば利益増・売上増・コスト減につながるのか、など)、やはり因果関係を知る必要がある
ビッグデータがもたらす将来を比較的具体的に考察している点や、歴史上の出来事と比較しながら分析している点に関してはとても興味深い。
比較的読みやすく(部分的に、翻訳のためかひっかかる箇所はあるが)、ビッグデータをビジネス上の観点から知る上で相応に良い本だと思う。
投稿元:
レビューを見る
最近流行りのビッグデータについて。
中心的な話題は、ビッグデータは(数学的に)どのような手法で宝を見つけるかということよりも、どのようにビッグデータを使うかということ。
ビッグデータの具体的な例を交えて説明している。
本書を読んだ結果、ビッグデータという分野をあまり好きになれない。
理由は2つ。
1つは、どんなデータでも、ある程度数学の素養があれば、あるデータ間の相関関係は見つけることができるだろう。いわんや、ビッグデータと呼ばれる、巨大なデータの集合ならば・・・
が、これらの相関を見つけるのがビッグデータの本質なのだろう。
つまり、どんなデータでも都合よくデータを解析すれば、ある程度のアウトプットは見つけられるのです。
従って、そのアウトプットが正しいことを検証する必要があると思います。
そこで、2つめ。
ビッグデータで評価された結果(相関)については、因果関係を問わないという風潮なのだとか。
これは科学ではない。なぜならば、科学とは反証可能性を有する必要があるからである。
しかしながら、ビッグデータのアウトプットは、複雑すぎてどのような計算結果から因果関係が出てきたのか調べることができない(著しく困難)。さらに、できたとしてもこじつけでしかない。
例えば、アメリカではハリケーンが近づと、あるお菓子(ストロベリー味!)の売り上げが伸びるそうだ。
なるほど。ビジネスをする限りでは因果関係なんて必要ない。
全てはデータが語ってくれるのだから。
しかし、エンジニアとして考えを述べると理由が必要なのです。
全ての物事には因果関係があるのです(あるはずなのです)。
なぜ、特定のお菓子の、特定の味の売上が伸びるのだろうか。。。
この「なぜ」を突き詰めるのが面白いのですが、結果が使えれば全てよし。という姿勢。
話がそれたが、ストロベリー味のお菓子の売り上げが伸びるのはハリケーンが来るからなのか、そこに別の隠れたパラメータがあって、それがハリケーンと関係があり、結果として、お菓子が売れるという可能性もある。
が、反証できないし検証もできない。
再度いうが、ビジネスという純粋に利潤を追い求めるのであれば、それはそれで価値があると思うが、科学として興味の対象とはなりえないと思います。
投稿元:
レビューを見る
内容の重複が多く,冗長な感じはしたが,
新たな知見を得ることができ,面白かった。
【備忘録】
第1の変化「すべてのデータを扱う」
「N=全部」の世界
第2の変化「精度は重要ではない」
量は質を凌駕する
第3の変化「因果から相関の世界へ」
答えが分かれば,理由は要らない
投稿元:
レビューを見る
*****
ビッグデータに変わることによって「相関関係」から得られる仮説の精度とバリエーションが膨大になる。そのためのバックエンドを準備する重要性はあるが、それ以上にどう活用し、なにを目指すのかが大事。
*****
データを保有する会社がやはりバリューチェーンの中で優位性を持つようになるのか。
*****