投稿元:
レビューを見る
数理統計学の大御所が書いたデータサイエンスのガイダンス書。著者のバックグラウンドを考えると統計学的な観点からの議論がメインなのだろうと思っていたら、そんなことはなく、現代のデータサイエンスについてとても広範かつバランスよく書かれていて、読んで勉強になった。また、データサイエンスに馴染みのない人にでもとっつきやすい内容になっていて、とても価値ある一冊だと思った。
投稿元:
レビューを見る
大雑把な概説で、なんとなく理解できたが、著者の文体や項目だての粗さもあって、読んでいてさっくり頭に入ってこない。特に統計学とデータサイエンスの扱う領域があまり明確にされていないのは致命的である。「おわりに」の最後にようやく図による整理がされているので、この図をまず参照してから読み進めるとよい。ただし、この図の項目すべてを網羅していないので、本当の意味での「入門」にすぎない。
投稿元:
レビューを見る
データサイエンスを情報学・統計学・価値創造の3つの要素を統合するものとして位置づけ、それぞれについて詳細に渉り言及されており、理解しやすい内容となっている。情報学の見地からはその情報量が膨大であるが為にある恣意的な意図が反映しやすい懸念を感じるし、統計学の見地からも同様であり、特に情報の把握を現在のSNSなどに頼るとフェイクニュースの様な事態も現前しており、そこに難しさを感じる。価値創造の観点からはこうした懸念事項を払拭しえればまさにビッグデータであるだけにイノベーティブな創造が可能になると思う。
投稿元:
レビューを見る
データを取り扱う上での倫理として、改ざんや捏造という明らかな不正だけではなく、不正かどうか難しいケースが紹介されている(p.95f)
公表バイアス(出版バイアス paubulication bias)
主張したい仮説について、仮説が成り立たない場合でもそれを支持するデータがたまたま得られることがある。実験の母数がわかれば公表バイアスの問題は生じないが、優位にならなかった研究は公表されないことが多いから、公表バイアスの大きさも評価できない。
「後知恵」のケース
事前に結論はなく、データを見てからそれに合う結論を探す場合に生じる。例えば様々な地域の児童の学習環境や家庭環境など様々な項目を調査した。地域により食習慣が異なるとすると、学力試験の結果との相関を見て、食習慣と学力には関係があると結論づけてしまうかもしれない。
これらを避けるためには、データを取る項目、評価対象にする項目、有効/無効の判断の境界を事前に決める必要がある。しかしビッグデータの解析では探索型データ解析がほとんどであり、「後知恵型」になりやすい。
投稿元:
レビューを見る
データサイエンスの詳細な説明というよりは、統計、インターネット、PCの説明である。
もっとデータサイエンスを中心に説明して欲しかったが、滋賀大学でのデータサイエンス学部を持っているので、多くの分野での説明となってしまった。
投稿元:
レビューを見る
120ページあたりから急に全くついていけなくなる。
プログラムの固有名詞とプログラミング関係の用語羅列で思考停止に陥る。
まあ、そんなんだから、紙の本を求めるわけですが。
投稿元:
レビューを見る
データサイエンスの入門書。「入門」と言っても、データサイエンスを学ぶ人が最初に読むべき内容というより、データサイエンスをよく知らない人間がどのような領域を対象にどのような役割を果たしどのような手法が活用されているか見通すための概要書というべきか。著者は滋賀大学のデータサイエンス学部の立ち上げに学部長として寄与した統計学者。図表やまとめがあると分かりやすいと思うのだが、岩波新書ならではの趣きもあってそれはそれで良いのかも。アカデミアの人ならではの広い視野と知見が随所に散りばめられ、今ちょうど話題のGDPRを含めてデータの処理や分析にまつわる諸々の問題点を広く触れています。特にEBMや各種バイアスなどの実例の話はとても参考になりました。
投稿元:
レビューを見る
本書のタイトルにある「データサイエンス」って何?と思い、読んでみました。
本書では「データサイエンスとは情報学、統計学、価値創造の3つの要素を統合する分野」として解説。
スマホを携帯して移動したり、お店で品物を購入する際にポイントカードを提示したりしながら、便利さやポイント還元などと引き換えに無意識にビッグデータの元を提供していたことに改めて気付いた。
統計学は昔からある学問だし、学校や会社で学ぶ機会もあったので、Ⅱ章「データとは何か」はとても分かりやすかった。
Ⅲ章「データに語らせる -発見の科学へ向けたスキル」はコンピュータや情報学に明るくないので、やや難解だった。
ビッグデータやAIの進歩で新しい学問分野が生まれ、時代は変わったなぁ、と実感した。
投稿元:
レビューを見る
2017年7月22日のNHKスペシャルで「健康になりたければ病院を減らせ」とAIが提言し、著者は全く根拠がないとしているが、財政破綻して病院を減らした旭川市で根拠があると思う。
投稿元:
レビューを見る
本書は表題のとおり、データサイエンスの入門書である。とても読みやすい文体でそう時間をかけずに一読することができた。洋の東西を問わず膨大な知が蓄積され、体系化され、ディシプリンとして確立し、欧米の大学のケースを参照し、日本の大学にも学部・学科という教育組織が誕生し、教育内容も整理され、この本のような教科書されるまでに形成されたのが、近年のデータサイエンス分野といえる。この分野では、データ処理には情報学(コンピュータ科学)、データの分析には統計学、またデータから価値を引き出すためにはそれぞれの応用分野といった領域を理解・習熟することが求められる。この3方向からのスキル習得や知識の理解を気に留めたい。
またエビデンスに基づく意思決定という考え方は、わりと一般化している印象があるが、対する事例・エピソードに基づくそれを意識することも、一つの仕事や研究に対するアプローチ方法として有用だと思った。ただし「一部の成功例が強調され過ぎたり、失敗例が報告されないようなバイアスが生じ得る」(p.83)可能性もあるので、報告者の倫理感が必須となろう。「データに基づく判断をベースとして、人間の経験と勘に基づく判断も活かす」(p.90)ことが、実務の場での理想的な判断の仕方だと思った。
投稿元:
レビューを見る
総合研究大学院大学 複合科学研究科統計科学専攻
滋賀大学が日本初のデータサイエンス学部を開設
横浜市大も2018年4月に開設。
中心極限定理を実感できるゴルトンボード
深い穴は掘れない。地殻は30キロ程度、穴はせいぜい10キロ程度。それ以上は熱と圧力で掘れない。飛行機は1万メートルは普通の高さ。
データマインニング=何か有用な知見が得られないか探索すること。
オンライン講座MOOCのgacco.orgの統計学1,2
日本統計学会 統計学3
総務省統計局のデータサイエンスの3つの講座、
滋賀大学 高校生のためのデータサイエンス入門
統計検定2級と準1級。
データ解析コンペディション 英語ではkaggle.com
オプトホールディング社
RSTUDIO、
プログラミング言語Python
投稿元:
レビューを見る
ほんとうに入門のための本です。概括的な紹介に留まり深堀はしてないのですが、専門外のひとに概要を理解してもらうために紹介するのはありかもと思いました。
投稿元:
レビューを見る
データとどう向き合っていくかを考える入門書。ただし、データがこれまでどのように使われてきたのかリアルタイムで過ごしてきた世代と、smart phoneがすでに発達した世代では、読んだ時の印象が違うかもしれない。
投稿元:
レビューを見る
著者もあとがきで書いてますが本書は全然「データサイエンス」入門じゃない、数理統計の歴史と今、な本
言い訳するくらいなら引き受けなければいいし、引き受けたなら部下も学生も知り合いの学者もいるはずだからそれ相応に書けたはず
岩波新書の魅力は、タイトルで釣ることなくそのものズバリのタイトルで内容もそのものズバリ、なところなのにこれ明らかにバズった用語を借りた釣りじゃんか
まずは伝統的なやり方で大学で学ぶのがよいってデータサイエンスが学べる大学なんて数えるほどしかないよ
投稿元:
レビューを見る
1.この本を一言で表すと?
・数学など専門的な話にはあまり立ち入らず、データ分析の重要性や分析手法などを一般の人にもわかりやすく説明
した本
2.よかった点を 3〜5 つ
・公表バイアス、確証バイアス、後知恵バイアスの話
→よくある話なので読み手が注意すべき所
・エビデンスに基づく意思決定
→「学力の経済学」という本で教育に関する EB を論じていたが、この考え方は日本にもっと取り入れられるべき
だと思う。
・データ処理と可視化
→SQL とはどういうものかよくわかった。
・現在の人工知能技術はビッグデータと表裏一体であり、データに基づく適切な意思決定を支えるという意味でのデ
ータサイエンスは今後もしばらくは重要な分野(p135)
→データサイエンスはあくまでも意思決定のサポートであるということが重要なこと
3.参考にならなかった所(つっこみ所)
・「人工知能」=「深層学習」という呼び方は適切ではない(p132)
→違うのか?
5.全体の感想・その他
・現代のデータサイエンスについてバランスよく書かれているのがよい