投稿元:
レビューを見る
機械学習ってすごい!って本はたくさんあるけど、それをビジネスにしたければこういうこと考えないとまとめられないよ、という目線の本は珍しいのかなと。
読み物としてはあまり面白くなかったけど…、仕事で必要になった時には読み返そうと思う。
---
6
今まで活用されてきた統計学、現在主流になりつつある機械学習は、根本的に異なる要素技術である
41
Googleが今行っているのは、コンピューター上でカリフォルニア州の公道を再現したシミュレーターを用意し、そこをGoogleカーの順応操縦システムで繰り返し実験をさせることです。2016年の1年間だけでも、Googleは約16億kmのバーチャル走行しています。
91
フィーチャー:影響因子としてモデルに組み込む変数のこと
135
モデル選定の定石
152
kaggle.com
158
予測モデルはRかPythonを選んでおけばよい
161
医療データでは、アマゾンの代わりにIIJがよく使われます
投稿元:
レビューを見る
機械脳ができること
①可視化
②分類
③予測
自動車保険
運転データから保険料を算出。
リアルタイムの安全アドバイス。
目標設定のSMARTな
Specific 具体的な目的
Measurable 測定可能な目的
Achievable 達成可能目的
Relevant 意味のある目的
Time Bound 期限付きの目的
投稿元:
レビューを見る
AIを技術面というよりも活用面でとらえているのでどうビジネスに当てはめるかという点でとても参考になりました。前半はいくつかの会社の実例を挙げたうえでこのような活用がされている点を踏まえ、後半は技術の概要から実際のビジネスにどうはめ込むが述べられています。
技術面よりも運用面・経営面的な観点になっているので、ビジネス書として読みやすいし、理解しやすいと感じました
投稿元:
レビューを見る
機械学習、ディープラーニング・・・
とデータ分析関係の話題に事欠かない昨今。
上記のような技術に触れる機会は今後増える一方で、
かつ生産性を上げるという視点を考えると、
データ分析は避けて通れない領域である。
そんなデータ分析領域に取り組んでいくために、
どういったスキルが必要なのか、どんな人が必要なのか、
そしてどんな進め方で取り組んでいけばよいのか、
といった疑問を解決し、愚直に取り組むためにも、
まずは本書を読んで全体像を掴むと良いと思う。
【勉強になったこと】
・機械脳の時代に重宝されるのはデータサイエンティスト
だけでなく、データサイエンスとビジネスの架け橋と
なれる人のほうがずっと重宝される。
・レコメンドのときは、類似した映画をオススメする
のではなく、まだ見ぬものをオススメすることが大事。
知っているものをオススメされても喜ばないし、
価値は無い。映画のレビューからキーワードを
抽出し、似通ったキーワードの付いた映画を
進める等の工夫によって初めてレコメンドの価値が
生まれる。
・機械脳を作るときに大事なフレームワーク
ABCDEフレームワーク:
・Aim(目的)
何を実現すればよいか?
目的を立てるときにはSMARTに立てること。
手段、対象、数値基準、期日、制約条件
制約条件については、感度と特異度に注目する。
・Brain(機械脳の種類)
どんなアルゴリズムを使うのか?
「可視化」「分類・予測」のどちらであり、
どれくらいの精度が求められるのかを明確にする。
また、モデルの選定基準を可視化して、
データサイエンティストに説明を求めること。
モデルの選定基準は、
A:Accuracy(精度)
I:Interpretation(解釈容易性)
C:Coding/Construction(プログラミング作業・実装)
S:Speed(速度)
で判断するが、基本的に精度を取ると、
それ以外の3つは落ちるのが一般的。
・Coding/Construction(プログラミング作業・実装)
プログラムやサーバの構成
pythonやRが一般的によく使われているが、
既存システムがJavaならJavaでコーディングする
といった考え方が必要。
・Data(データ)
作り出したいデータとその基となるデータを
何にするかを明確にする。
基となるデータを選定するときの根拠は、
R:Relevancy(関連性)
V:Volume(データ量)
G:Granularity(粒度)
C:Cost Effectiveness(費用対効果)
で判断する。
・Execution(実行)
実行に移す際の組織、オペレーションを明確にする。
・欠損がランダムであれば、分析結果に影響を
及ぼさないことが研究結果から明らかになっている。
・データサイエンスはチームで取り組むものであり、
役割としては以下の3つがある。
データGM:
・プロジェクト全体を取りしきる
・ビジネスとデータサイエンスのコミュニケハブ
データサイエンティスト:
・統計学や機械学習についての考え方、
ツール適用における理論的側面をリード
データエンジニア:
・プログラミング作業や実装
・インフラ構成の決定
どれかだけ知っているでは上手くいかないため、
どれかに強く他はそれなりに理解しているといった
スキルセットとなることが望ましい。
そのためにも、自分がどの役割を目指すか、
向いているかを明確にして、それに向かって
勉強や実践による経験値を積んでいくこと。
投稿元:
レビューを見る
データサイエンスにつき極めてビジネス目線寄りのプロマネ目線で、技術的な説明のみならず、組織作りや人材育成にまで踏み込んで記述している点がユニーク。特に良かったのがデータサイエンスのプロジェクトを失敗させないための見える化・共有の方法を詳述していた点。ビジネスマンのデータサイエンス入門書として最適だと考える。
投稿元:
レビューを見る
いわゆる人工知能のビジネスでの活用について、極めて丁寧かつ実務上の示唆が非常に良くまとめられた解説書。この手の類書は様々あるが、個人的にはトップレベルに分かりやすく、かつ学びが多い。
人工知能が得意な「可視化・分類・予測」という効用とそれぞれのビジネス上の事例の解説に始まる本書では、人工知能を本当にビジネスで活用するためのプロジェクトマネジメント上のフレームワークやその留意点が丁寧に解説されている。
例えば、用いるモデルを選択するというプロセスでは、モデルを選択するためには4つの判断基準が示される。
・Accuracy:モデルの精度
・Interpretation:解釈の容易性
・Coding/Construction:プログラミング作業・実装
・Speed:解析結果が出るまでの速度
問題はこの4つはAccuracyとその他3つでトレードオフになりやすいことであり、本書ではそのトレードオフが実際のプロジェクトでどのように発生し、どう解消するのかを2つの短いケーススタディを通じて仮想的に理解することができる。
また実務上、非常に重要な作業だが軽視されがちなデータの選択やクレンジングといったプロセスについても、丁寧かつ具体的な解説がなされているなど、有用性が高い。
投稿元:
レビューを見る
「はじめに」にもあるように、実際にビジネスの現場で使える情報方向に寄った本。スタープレイヤーが活躍する時代から、チームで協働していく時代になりつつあるれど、機械脳の出現によって、それが更に加速する。データさえあればあとは機械脳がなんとかしてくれるのではなく、何をやりたいのかを決めたあと実現するのに適したデータを取るという方向が正しい方向。そのためには、使うデータと使わないデータの選別(つまりデータを捨てること)が必要になる。
投稿元:
レビューを見る
データサイエンティストはどういう仕事をするのか、が書かれた本。技術的なことが知りたかったので少し物足りなかった。
投稿元:
レビューを見る
■機械脳、データサイエンス、機械学習の用語の関係は?
機械脳は社会への広範な影響の総称、データサイエンスは機械脳を実現するための技術全般、機械学習は1要素技術。
※機械学習以外にも、データサイエンスの要素技術はたくさんあるということ。
■データGM, データサイエンティスト、データエンジニアの役割を知る。
[前提]
ビジネス、統計、プログラミング、リーダーシップのすべてを兼ね備えている人を採用することは非現実的である。段取りや主要な意思決定をすべて「明文化して共有」し、的確な役割分担のもとにチームを作るほうが現実的かつスケール可能な「科学的なチームアプローチ」である。一人当たりに期待する「職能」を細分化し、メンバーの「共通言語」を揃えることで、全体が一つのチームになって機能することを志向すべきである(図表6-5, 6-8)。
※共通言語:データサイエンスの基本概念、ABCDEフレームワーク
☆しかしながら、両方できる人材の希少価値は高い。そこに近づくためには、自分とは違うスキルセットを持ったメンバーと団結して、何でもするように必死に努力すること。考えたり教えてもらったりなど。
[データGM]
ビジネス上のミッション(顧客獲得や利益率改善)に焦点を当てながら、サイエンス人材、システム人材とコミュニケーションを取り、プロジェクト全体を取り仕切る人材。営業部や経営陣とのコミュニケーションのハブとなる(プロジェクトの失敗事例の多くは、コミュニケーションのミスにある)。MBA保有、コンサルティングファーム在籍経験、顧客と直接接点のあるビジネスサイドでの5年以上の経験などの経歴が求められる。
[データサイエンティスト]
統計や機械学習についての科学的な考え方、ツール適用における理論的側面をリードする人材。統計を多用する領域の学位、研究機関での専門職の経験、ビッグデータの業務経験などの経歴が求められる。複雑な事象を分かりやすく説明できるように工夫することで、社内のデータリテラシーの底上げに貢献することができる。
[データエンジニア]
コーディング業務・システム実装業務を取り仕切り、ビジネス要件・数理モデル上の要件を、プログラムやサーバに具現化させる責任者。SE、プログラマ、インフラエンジニアの業務経験が求められ、プログラミング能力やサーバの知識が必須である。
☆仕様が完全に決まってからプロジェクトがその通りに進行することは滅多にないため、業務理解とデータ定義についての詳しい知識に基づき、拡張性を考慮する必要がある。よって、業務知識のヒアリングによるアップデートとシステムへの反映が、データエンジニアにとって「決定的に」大切な職務となる。
■データサイエンスを知らなかった人は、これからどうすれば活躍できるのか。
・環境が変わり、活躍するためのスキルセットが変わったことをまず認識する。昔は読み書きそろばん、今はインターネット、今後はデータサイエンスが必須のスキルとなる。新時代の必須スキルへの投資が必要であると認識し、勉強する。
・データGMは、機械脳の基本概念を押さえることで、貢献が可能となる。
・データエンジニアの必須教養は、インフラ環境、データベース(ETL: Extract, Transform, Loadを含む)、言語(R, Python)である。
・普通の人は、たとえ難しそうに見えても、新しい技術を学び、使う側に回るのが良い。これにより、想像力や創造力が要求される業務に時間を使えるようになる。
■ABCDEフレームワークとは?
・思考整理の手段として有用であり、チームで共有することで議論する際の共通言語になる。
・AからEを一気通貫してデザインすること。決まっていない項目は空欄に仮置きして進めればよい。
[Aim(目的)]
意思決定でチームが右往左往しないように、目的を書き出して、はっきりとした形でチームで共有すること。
・手段(○○することを通して)(目標設定として、試行錯誤の範囲や領域を示せればよい)
・対象(○○が)
・数値基準(○○となることを)
・期日(○○までに達成する)
・制約条件(ただし○○とする)
☆「目的設定はSMARTに」
・Specific(具体的な目的か?)
・Measurable(測定可能な目的か?)
・Achievable(達成可能な目的か?)
・Relevant(意味のある目的か?)
・Time Bound(期限付きの目的か?)
[Brain(機械脳の種類)]
アルゴリズムの選定根拠をブラックボックス化させないことが重要。ポイントは、B以外のすべてをはっきりさせて、Bへの要件を明確化すること、および、モデルの選定基準を可視化してデータサイエンティストに説明を求めること。
モデル選びの定跡(図表5-4):まずは両立モデルにトライしてみて、何が問題かを確認してみるのが良い。モデル選びにはトレードオフがあるので、チームで議論すること。
☆モデルの選定基準:AとI/C/Sはトレードオフの関係にある。
・Accuracy(精度)
・Interpretation(解釈容易性)
・Coding/Construction(プログラミング作業、実装):ライブラリの豊富さ、必要データ量など
・Speed(速度)
[Coding/Construction]
落とし穴①:プログラミング言語…既存モデルやAPIがあるのにゼロから作ってしまう。動くシステムが早く作れることを考えると、既存モデルやAPIの組み合わせとチューニングのレベルを高める方が長期的に見て良い。また、運用時の言語があらかじめ分かっていれば、初めからその言語で開発するべき。
落とし穴②:クラウドサーバ・サービス利用…自前主義にこだわりすぎないこと。法令違反になる範囲は意外と狭い。
落とし穴③:チームマネジメント…AからEをしっかり共有し、データエンジニアへのミス・コミュニケーションが起きないようにすること。
[Data(データ選定と整備)]
いかに優れたモデルを使っても、元のデータの選定と準備加工が悪ければ、良い結果は出ない。今あるデータから何ができるかを発想するのはよくない。「作り出したいデータ」を得るには「その素材となるデータ」としてどういうものが必要かという逆算思考が、生産性の高いアプローチとなる。
☆データ選びの基準
・Relevancy(関連性)
・Volume(データ量):一般的に、推定したいカテゴリごとに少なくと��百から数百は必要。
・Granularity(粒度):測定密度を高めるか、データを組み合わせるかのいずれかしかない。
・Cost Effectiveness(費用対効果):
データの取得と整備の費用。欠損値や外れ値を整える作業=データクリーニングが分析時間の8割を占める。
[Execution(実行)]
データGM, データサイエンティスト、データエンジニアが協力して作業する際、認識齟齬が生じないよう、また、肝となる意思決定がブラックブックスにならないよう、「徹底的に言語化して共有」、かつ、その内容を更新し続けること。
AimをSMARTに書き出す→キーパーソンに意見と協力を求める→BからEのすべてを言語化
☆「わざわざ書かなくても、全員分かっているので問題ない」とタカをくくっていても、実際にその通りだった例はない。必ず文章化による発見がある。
■機械脳の実用化例(可視化、分類、予測)を知る。
[可視化]
・ホンダのインターナビ:走行データを地図に重畳→危険個所の特定を実現
・コマツのコムトラック:重機の位置と状態を把握→盗難防止を実現
・象印のi-Pot:電気ポットの利用状況から、離れた家族の安否確認を実現
・日立のビジネス顕微鏡:加速度・赤外線・音声センサーを可視化・分析→組織パフォーマンス向上を実現
☆示唆としては、ある事象を可視化するために、どのようなデータに着眼するかというデータ選びのセンスが必要。対象自体の測定が難しくても、何らかの物理量として可視化できる場合がある。
[分類]
膨大なデータから、探しているものがあるかどうかを判断すること。
・ペイパルの不正アクセス検出:検出条件をすべて人間が書き出すのは無理であり、学習により自己修正するという機械学習の特徴が必要である。
・富士フィルムやアンセムの癌の画像診断支援:多くの情報源を確認するための負荷やヒューマンエラーという問題に対し、機械学習を導入した。学習データ量の増加によって、さらなる精度向上が望める。
☆医療分野における人工知能の活用は、人間の判断を支援する形で採用されることが一般的である。データサイエンスとして技術的に自動化できたとしても、法制度上の問題などから、人が不在となるのはまだ先になる。
[予測]
・エパゴギクス(映画の興行収入をニューラルネットワークで予測):専門家が脚本を読んで作成する、数多くの要素から成る(=影響因子が多数)評価である「脚本スコア」を入力として(脚本そのものではない)、興行収入の予測を出力する。実際の興行収入データを用いて学習させる「教師あり学習」を採用している。2005年頃からハリウッドで実用化されており、不可欠な存在となっている。
・アマゾンの購入予測とレコメンド:ビジネスモデルを考慮してデータサイエンスの精度を上げる好事例。まったく関係ないアイテムを紛れ込ませて、クリックすれば興味ありと判断する。クリックミスや会社備品の購入などのノイズはユーザ自身が削除できるようにする。レビューコメントからテキストマイニングで商品タグを作り、そのタグをもとにレコメンドする。
・HPでは、退職リスクの数値化と予測により、事前対策を打てるようになった。
・クライメート・コーポレーション(気象予測に基づく自動天候保険):アルゴリズムもデータも気象予測としては一般的なもの。自動損害算出による証拠提出の不要化というビジネスモデルが新しい。世界中の個々の農家の地点の気象予測が必要であるため、膨大な計算量が必要となる。Hadoopによる分散処理を利用した。
・自動車保険の“Pay How You Drive”:データサイズは小さく、リアルタイム処理は不要である代わりに、予測精度の向上が求められる。
投稿元:
レビューを見る
データサイエンスについて、観点を分けて上手くまとめられていた。観点がしっかりしてると、腹落ち感も変わってくる。
投稿元:
レビューを見る
データサイエンティストって何か、が明確で経営コンサルタント、戦略コンサルタントとの違いを考えさせられた
投稿元:
レビューを見る
事例などがよく整理されており、内容も分かりやすいものの、最先端の分野だけに陳腐化も早い。
残念ながら、やや内容が古いためその点で減点。