投稿元:
レビューを見る
ビッグデータを使うと何ができるのか、なぜ「ビッグ」なのか、ビジネスへの利用、負の側面などについて書かれている。これまでのように少量かつ正確なデータで因果関係を発見するのではなく、大量かつ乱雑なデータから高速に相関関係を発見できるようになったことがキーポイントのようだ。シリコンバレーの名だたる企業から自治体まで、ビッグデータを活かした具体例が豊富に説明されているので分かりやすい。また、プライバシー侵害や「データ至上主義」のような負の側面についても指摘されている。
投稿元:
レビューを見る
言葉が先しているビッグデータについて、要点を理解するのに、入りやすい。今までの統計との対比が秀逸。後半はやや冗長なので、斜め読みで良いかな。ブラックスワンと、対で読みたい。
1.ビッグデータ:小規模ではなしえないことを大きな規模で実行し、新たな知の抽出や価値の創出によって、市場、組織、さらには市民と政府の関係などを変えること。
2.量が変われば本質が変わる。
3.ビッグデータ3つの変化、①無作為の標本抽出から全てのデータに。n=全部。②量さえあれば精度は重要ではなくなる。③原因と結果の因果関係からの脱却。因果関係でなく相関関係が重要になる。
3.無作為抽出という革命が近代の大規模な計量法の根幹をになったが、あくまで簡便法であって完全なデータの次善策。全体ではなく標本を相手にするには常に何らかの犠牲を伴う。
4.量は質を凌駕する。乱雑な方が正確になる時代。相関は理由ではなく答えしか教えてくれないが、それで十分なことが多い。
投稿元:
レビューを見る
様々な文献や事例からビッグデータの全体像について語られている。
(技術的な具体的な内容ではない。)
とても納得感と読み応えのある本だった。
古い企業も実はビッグデータを保有する企業として、ビジネスそのものが変わる可能性も感じた。
本書におけるビッグデータの捉え方は:
「小規模ではなしえないことを大きな規模で実行し、新たな知の抽出や価値の創出によって、市場、組織、さらには市民と政府の関係などを変えること」
ビッグデータらしさ:
その1 ビッグデータは限りなくすべてのデータを扱う
その2 量さえあれば精度は重要ではない
その3 因果関係ではなく相関関係が重要になる
3つのリスク:
プライバシー、傾向・習慣、データ独裁
投稿元:
レビューを見る
何かと話題に上がるビッグデータについて有用性や懸念点、これからもたらされるであろう将来を説明。以前読んだ『統計学が最強の学問である』とは反対の見地、データ分析はN=全部に近づけることが重要、でありどちらも一緒に読むことを薦めたいと思う。自分はDB推奨派であるが、社会全体がDB化することには未だ疑念を感じる。
投稿元:
レビューを見る
大量にデータがあれば、因果でとらえる必要などなく、相関だけで結果は十分と言う結構ムチャな主張をしている部分がありますが、それはともかく、データの扱いに対するトレンドが分かります。
投稿元:
レビューを見る
ところが膨大なデータから浮かび上がる相関関係は未来予測を可能にする。「風が吹けば桶屋が儲かる」のは因果関係を辿ったものだが、ビッグデータは風が吹く前にネズミ捕りが売れることを予測するのだ。
http://sessendo.blogspot.jp/2017/09/blog-post_18.html
投稿元:
レビューを見る
発売されて約5年経ったが,指摘としては悪くなく,またビッグデータがもてはやされ始めた当初の熱を感じる文章でもある.ある程度まとまった年月が経って,やはりビッグデータ自体は無視できない地位を占めている(あるいは今後占める)と思われるので,基礎知識としては役立つ内容.
投稿元:
レビューを見る
☆人工知能におびえるな。ビッグデータと人工知能と集合知の結び付けが大事。
☆集合知の活用には専門知が必要。
(参考文献)『ビッグデータの正体』、人工知能は人間を超えるか 松尾、『ポスト・ヒューマン誕生』、ロボットは友だちになれるか、インターネットを生命化する、基礎情報学のヴァイアビリティ
(著作)『集合知とは何か』、『AI』、『続基礎情報学』、ネット社会の「正義」とは何か、
投稿元:
レビューを見る
最近話題のBig Dataだが、これまでの統計的手法とは決定的に考え方が違うということが非常に分かりやすく述べられている。また、Big Dataに対する分析も簡単ではないことにも触れられている。
Bid Data分析の効用・価値だけでなく、リスクや今後求められるであろうルールも言及されており、Big Dataを多面的に理解する上で良著だと思う。
投稿元:
レビューを見る
特別な工夫をしなくても、世界中で膨大なデータが「自動的に」集まるようになってきた。ビッグデータを用いて、今まで誰も気がつかなかった「相関関係」を掘り出して、政策やビジネスに適用するのは、昔のゴールドラッシュのようなもの。人より先に手を付けるアントレプレナー体質の人は、どんどんやればいい。しかしビッグデータ問題の本質はそこにあるのではない。
マスデータが、自動的に一部の組織に囲い込まれているという「データ資本主義」、相関関係と決定係数だけを頼りにクラゲのように生きる人間や組織をのさばらす「尊厳の喪失」が本質的な問題だ。
世界は、早急にこの問題に対してコントロールする手段を検討しなくてはならない。
投稿元:
レビューを見る
「相関」という概念が提唱されたのは1888年のことだ。提唱者は、チャールズ・ダーウィンのいとこに当たる人類学者、統計学者のフランシス・ゴルトンである。人間の身長と前腕の長さの間には関連性があると気づいたのが、きっかけだった。
「causality(因果関係)」「correlation(相関関係)」
相関は、「理由」ではなく「答え」しか教えてくれない。
確かに人間は世の中を因果関係で眺めている。まず、手っ取り早く架空の因果関係を持ち出すパターンがある。もう一つは、じっくり時間をかけて綿密に因果関係を検証するパターンだ。ビッグデータによる相関関係は、このどちらにも影響を及ぼす。
なぜ架空の因果関係を持ち出してしまうかといえば、「因果関係を知りたい」という本能的な欲求があるからだ。たとえ原因などなくても、原因があるはずだと思い込む習性が人間にはある。これは文化や家庭環境、教育とは関係ない。単に人間の認知の仕組みによるものだということが研究で明らかになっている。ある出来事の後に別の出来事が起こると、脳が因果関係で捉えるように強く命令するのである。
例えばこんな3つの文を見ていただきたい。
「フレッドの両親が遅刻してきた」
「仕出し屋はまもなく到着する見込みだ」
「フレッドは怒っていた」
これを読むと、なぜフレッドが怒っていたのかピンとくる。仕出し屋がすぐに来るからではなく、遅刻した両親が原因だ。本当は、ここにある情報だけでは何もわからない。それでも人間の脳は、与えられた事実を基に、因果関係のある筋の通ったストーリーを作り上げてしまう。
2002年ノーベル経済学賞を受賞したプリンストン大学のダニエル・カーネマン教授は、この例を引き合いに「人間には2つの思考法がある」と主張する。
1つは手間をかけない直感的な思考法だ。こちらは即座に結論に飛ぶ。もう1つは、難易度が高く、時間をかけてじっくり考え抜く論理的な思考法だ。1つめの直感的な思考は、たとえ因果関係などない場合でも、因果関係を「思い描く」ことを優先する。また、既存の知識や信念にこだわる傾向がある。人類の古代史を見れば明らかだが、人間は乏しい情報の中ですばやい決断を迫られるような場面が多い。そういう危険な環境で生き抜く時に、この直感的思考は役に立つ。しかし、現象を生み出した真の原因を見つけられないことも多い。
日常生活では因果関係で物事を捉えることが多いため、因果関係は簡単に見つかると考えがちだが、現実派そんなに甘くない。数学的に浮かび上がる単純明快な相関関係と違い、因果関係は「証拠」を数学的にはっきり示す方法がない。そもそも一般的な方程式では因果関係を簡単に表すこともできないのだ。
モーリーはデータを集めると、大西洋全体を緯度・経度とも5度ずつのブロックに細分化し、各ブロックに気温、風や波の速度・方向を書き込んだ。もちろん、日付も添えた。その上で全体をじっくりと眺めると、一定のパターンが明らかになり、効率的なルートが浮かび上がってきた。
改めて船乗りたとの間で代々語り継がれてきた航路を当てはめると���風のない凪の海にわざわざ進路をとっていたり、風や海流に逆らっていたりするものもあった。ニューヨークからリオデジャネイロへのある一般的な航路の場合、自然を上手に利用するどころか、長時間、自然に戦いを挑むようなコースも散見された。米国の船乗りの間では、「リオにまっすぐ南下する航路は危険が多い」と言われてきた。そこでいったん南東に進路をとり、赤道を越えた後に南西に進路を切り替えていた(その移動距離たるや大西洋を3回横断できるほどだった)。この複雑怪奇な航路にはまったく意味がなく、一気に南下すればよかったのだ。
(大半の航海距離が1/3に短縮された)
投稿元:
レビューを見る
仕事に絡むような本を久々に読んだ。ビッグデータって言ってるけど、これがまた10年も経つと、2013年頃のビッグなんて全然ビッグじゃないよね(笑)っていうことになるんだろうね。今でも充分空恐ろしいのに、これから先どうなっちゃうんだろうね。
投稿元:
レビューを見る
2013年、まだディープラーニングやkaggleのブーム以前に書かれたビックデータについての本。技術について近い将来の事をハッキリ物言いするのは難しいが、本書は贅沢に3つの章を使って3つの変化を”断定”するチャレンジをしている。
「1.すべてのデータを扱う」
無作為標本は大変な威力を持っている。しかし詳細情報のきめ細かさが無く特定の下位集団をクローズアップできない。暮らしの中で本当に興味をそそる事柄は、細部にあることが多い。
「2.精度は重要ではない」
膨大なデータがある場合、全般的な傾向が推測できさえすれば、精度や正確さはもはや最終ゴールではないケースもある。商店なら一円単位でもGDPならそんな面倒なことはしない。ビックデータだから乱雑でいいわけではなく測定、記録、情報伝達に使用するツールが不完全ゆえである。この問題は長期にわたって避けられず、無理してまで制度を高めることに経済合理性が見出せないことも多い。
「3.因果から相関の関係へ」
答えがわかれば理由はいらない。中古車市場ではオレンジの車の故障が少ないという結果が出たという。オレンジなど特徴的な車を買う人は愛着を強く持ち大事にするためなのかも知れないが、それが本当かは分からない。しかし分からなくても問題がない事も多い。故障が少ないことは事実なのだから。
2019年となった今日ではビックデータから導かれた結論は「〜らしい」という性質であり、無理に因果関係を考えないとか、精度の低いデータでも他の情報と組み合わせ有効活用する事など、肌感覚としてユーザーに受け入れられている。Amazonのレコメンドやスマートニュースのセレクションがハズれたからといって、「なんの理由で俺にこれを勧めるんだ!」と息巻く人はいない。3つの変化は間違いなかったと言っていいのだろうし、これからもよりその方向に進んでいくのだろう。
もう一つ先見性があると思われるのは「早く活用!」「データからなんでも分かる!」と煽り立ててくるビックデータ本が多い中できちんとリスクについても触れられている点だ。
”ビックデータによって我々の生活は細かく監視されるため、法的なプライパシー保護手段では時代遅れになりかねない。また、技術的な手法で匿名性を確保したつもりでも、情報が漏れかねない。個人に関するビックデータ予測は、実際の行為ではなく、傾向や修正で罰する道具に使われる恐れもある。そうなれば、自由意志は否定され、人間の尊厳も破壊される”
父の忠告を守らずに翼の蝋が溶け、海に落ちてしまったギリシャ神話のイカロスを引き合いに出し、過度の信頼をしないよう警告を発している。
著者はオックスフォード大学オックスフォード・インターネット研究所教授のビクター・マイヤー=ショーンベルガー。セキュリティソフトの開発など、ソフトウェア系スタートアップの起業家としての業績も多いと有り、アカデミックな視点だけではなく身近で具体的な内容に納得がいく。「ビックデータ」と書籍を探せばエンジニア向けの技術書が多い中、ビジネス教養としての正しい知識が得られるため、ビックデータ入門の社会人全��にオススメできる。
発売から時間が経ったことで、これから先のビックデータ界を俯瞰的に眺めたり、将来を考えたりするには情報が十分ではないが、変化の早い分野で雑多多量な情報の中での最初の1冊として手に取ってみては良いのではないかと思う。
投稿元:
レビューを見る
2章から4章の章題が端的に言い表されていますね。
壮大な帰納法、大掛かりなデータ・フィッティング。
例えば、e^xという真理に基づく現象であると人類が気が付かなくても、a+bx+cx^2+dx^3+・・・と知っている関数で「近似式」ができればそれでいいじゃないか、という割り切り。
実際には多項式だけでなく、例えばシグモイド関数?とか、〇〇関数、とかの変な関数もたくさん入れて、線形連結しても、データがビッグだから各項の係数は求められる、
いや普通データの方が多くなるはずなので最小二乗近似の考えで「input→outputを予測する まともそうなモデル」ができるじゃないか、という考え方。
要点は「モデルを記述するパラメータが3つ以上になると、人間の頭や手計算では 主因の3つのパラメータがどれか見出すことや、
そこそこ当たる予測モデルを作るには どれだけ時間かけても判らん、となる現象であっても、
計算機の力でフィッティングモデルが生成できて、それを用いて改善策とか未来を予測できる」という所かと思います。
便利な道具があるのなら、これからどんどん それを使うべき。
しかしエンジニアにとって悩ましいのは、以下の2点です。
1)ブラックボックスのままで使えるなんて認めたら、人類は馬鹿のまま進化しないのでは?と思えてしまう。 本書p112あたりの話に関係します。
2)本書第3章「精度は重要ではない」は上記の「まともそうなモデルができさえすれば、それで使い物になる」という点で認めます。
しかし、ゴミデータを含むことを許容した際に、他のデータと著しく異なる「外れ値」を「バグ」とか「ゴミ」だと思い込むのは危ない気がします。
その外れ値は、実は ある鋭敏かつ決定的な前提条件に依存している現象で、その発見が、「イノベーションの芽」が、見過ごされないか?が心配。
p65~p66には「スペルミスや文法間違いがあっても間違いがどれくらいの確率で起こるか分かることが重要。
その間違いも「あなたの言いたいことは〇〇では?」と自動修正コメント出せるので」とありますが、
「間違い発見」の意味でのゴミの重要性ではなく、そのスペルミスや間違いが「新たな若者言葉発生」予測とか「言語の進化(変質)」予測になりえる、という様な捉え方です。
1)2)を通じ、人間の役割は未だ残っていて、
「ブラックボックスに甘んじず、その現象を言い表す真のモデルを考える努力をすること」と、
「突飛な外れ値(異端児)を捨てずに、どうして突飛になったのか放っとかないこと」ではないかと思います。
本書p288では「予測不能な物事、が人間に残されたこと」とありますが、それはビッグデータが未だ集まらない時点だけ人間が必要、という意味なら寂しい話です。
あとは
3)意図的なことがない自然科学、サイエンスの世界でも、この考え方は有用ですが、
意図的なことが混じったり、因果関係が余計判らない人文科学、特に(社会)心理学や行動経済学方面に絶大な効果を示す気がします。p141当たりに関連します。
ここが今後の莫大な��益の源泉になりそうなので、躍起になっている人たちがいるんですね。
人類の常識が通じずコミュニケーションがとれない「宇宙人」の行動予測をするのに効果的、いや嫁さんの次の発言や行動を予測するのに有用な気がします。
投稿元:
レビューを見る
2013年の作品。一見、無駄と思えるようなデータを大量に収集できるようになると、データをもとにした相関関係から、次に起きることが予測できるようになる。それは、因果関係で判断されてきた事項が変わることを意味する。因果関係としては不明だが相関関係としては正しいということが発生するからである。
ビッグデータというのは、相関関係で物事を予測できるようになることであるという主張が非常にわかりやすく、その本質を捉えているように思う。このあと、AIの進化で、さらにその威力、予測力が増してくるわけである。
AI+Big Dataというのは、インターネットの登場に匹敵する革命であると思う。そんな革命が短い期間のうちに次々と起こる現代。10年後の世界はもう、今とは全く異なるものになっていても別におかしくはない。