投稿元:
レビューを見る
1. ヒューマンコンピュテーションとクラウドソーシング
歪んだ文字列を正しく読むことは、自動文字認識(OCR)プログラムにとっては難しいが、人間にとってはさほど難しくないと言うことを利用して、アクセスしているのが人間であるかコンピュータであるかを判別しようとするチューリングテスト(Turing test)の一種。
指定された文字列が2つであればそれはreCAPCHA[10]と呼ばれる認証システム。
1.1 ヒューマンコンピュテーション(human computation)[56]
- コンピュータにとっては自力で遂行するのが難しいタスクの実行を代わりに人間に求めている。
- システムがそのタスクの実行結果を利用しようと言う明確な意図がある。
(カーネギーメロン大学のルイスフォンアーン氏によって提唱された。)
- コンピュータにとって解くことが困難な課題を、人間のもつ能力を利用して解決すること。
1.2 クラウドソーシング(crowdsoursing)[37]
- ジェウ・ハウ氏(Jehh Howe)によって名付けられた
- インターネットを通じて不特定多数の人に仕事を依頼すること、もしくはその仕組み
- 代表的な例
- Amazon Mechanical Turk
- マイクロタスク(microtask)中心
クラウドソーシングの実用性を検討するため、2つの挑戦的なプロジェクト
1. Network Challenge[96]
- 全米10箇所に設置された赤い風船をもっとも見つけ出したチームが優勝
2. 軍用車のデザイン
- クラウドソーシングを活用したコンピュータアプリケーション
- VisWis[13]
- 視覚障害者支援
- Adrenaline[9]
- 写真撮影支援アプリケーション
- Soylent[12]
- 文章作成支援システム
2. ヒューマンコンピュテーションシステムの設計論
2.1 ゲーム化によるヒューマンコンピュテーションの実現
- タスクのゲーム化 gamification
- プレイヤがゲームを楽しむその行為自体が何か別の作業を実行することになっている仕組み
- 目的を持ったゲーム Game With A Purpos: GWPA
- 出力一致方式 output agreement
- 複数のプレイヤの「出力」が「一致」することを目的とする
- ex.ESPゲーム[102]
- 入力一致方式 input agreement
- Tag-A-Tune[57]
- 楽曲のタグ付け作業をゲーム化したもの
- 可能な回答の区間が大きい時に有効
- 関数評価方式 function evaluation
- 計算過程で行ったコミュニケーションから目的の情報を引き出すような方式
2.2 ヒューマンコンピュテーションのインセンティブ設計
- 報酬額とタスクを実行速度・品質の関係を調査した研究では、報酬額をあげることによってタスクの実行速度は上がるのものの、その一方で作業品質にはあまり影響を与えないということが観察されている[67]
- メカニズムデザイン mechanism design[72]
- 多数の参加者が各々の利益を最大化するように振る舞うことも目的としたデザイン(嘘もOK)
2.3 ヒューマンコンピュテーションの設計
- ワークフロー
- ヒューマンコンピュ��ーションにおけるプログラムのようなもの
- 事前に設計し、記述する仕組みが提供されつつある[51]
- TurKontrol[23,24]
- 直列式ワークフロー
- ワーカから改善結果が提出された後に、改善前と改善後のどちらの成果物の品質が高いのかを他のワーカによる投票で決定する
- Turkomatic[52]
- フロー制御自体もヒューマンコンピュテーションによって行ってしまおうという考え方
- 単一のマイクロタスクとしては比較的規模の大きい依頼に対してワーカがこれがサブタスクになるまで再帰的に繰り返される
- 創造的なアイディア生成プロセス[116]
1. 過去の事例を見つける
2. 事例を一般化してアイディアの「型」を抽出する
3. 型の新しい適用領域を見つける
4. 新しいアイディアを生み出す
- 能力の高いワーカの活用と能力未知のワーカの登用は互いにトレードオフの関係にあり、両者のバランスを適切に取ることが重要。いわゆる活用exploitationと探索explorationのトレードオフ。
- タスク推薦 task recommendation
- ワーカとタスク間の割り当てをアルゴリズムが完全にコントロールするのではなく、ワーカが自分で適切な仕事を選べるように支援する仕組み
3.クラウドソーシングの品質管理
3.1 品質管理とは
- 品質管理 quality control
- 不良品やバグの数を管理する統計的手法
3.2 作業品質とワーカの評価
- ランダムに回答するワーカはスパムワーカや当てずっぽうに選択するワーカなどがある。これを見分けるスパマースコアというのがある。
- ラッシュモデル Rasch model
- 項目反応理論の中で最も単純なモデル
- 正解とワーカの回答からワーカの能力パラメータと難易度パラメータを同時に推定することが可能
- 確信度判断 confidence judgement
- ワーカに自分の回答が正解と一致する確率を訪ねる。ワーカの回答に対する自信と考えることができる
- メタ認知 metacognition[121]
- 自分自身の認知的能力に関する認知
3.3 冗長化と誤り訂正
- 誤り訂正 error correction
- 誤りの可能性を完全には排除できないため、これが必要
- 冗長化 redundancy
- 同じタスクを複数のワーカに依頼すること
- 頑健性を持たせる最も単純な方法
3.4 ワーカの能力と正解の同時推定
- EM法 Expectation Maximization
- 隠れ変数が用いられているモデルの状況でパラメータ推定を行う際に用いられる一般的な方法
- EステップとMステップがある
- 多次元項目反応理論 multidimensionalitem respose theory[83]
3.5 複雑な出力をもつタスクへの出張
- 中華料理店過程 Chinese Restaurant Process[59]
- 中華料理店のテーブルに客が着席する様子から名前が取られている
- 多くの客がすでに着席しているテーブルほど、新しい客が着席する確率が高くなるモデル
- Bradley-Terryモデル[15]
- 対象aとbのどちらが上位にランキングされるかという一対比較から全体的なランキングを決定するためのモデル
4. クラウドソーシングによるデータ解析
4.1 データ解析の労働集約性
- 1900年代後半から2000縁台にかけ、様々な業種においてデータマイニング技術の導入が検討され、それに伴うデータ解析プロセスdata analysis processの標準化の試みがなされてきた
- ex. CRISP-DM (Cross-Industry Standard Process for Data Mining)[90]
1. ビジネス理解
1. 解析の対象となる領域を理解しどのような課題があるか、何を目標とするかといったことの検討
2. データ理解
1. 初期データを収集し、データの概要を把握して、集めたデータが目的に適しているかを確認する
3. データ準備
1. 初期データの分析と検証を終えた後は、モデリングで使用するデータ準備を行う。クレンジング、整形など
4. データモデリング
1. 様々なモデリング手法を検討し、適切な手法を選択する
5. 評価
1. 作成したモデルを実際に活用する前に、モデルの制度や一般性を確認し評価する
6. 運用
1. 構築したモデルや解析結果を実際の意思決定に活用する、あるいはシステムに組み込む
- ex. データからの知識発見 Knowledge Discovery in Databases; KDD
1. データ獲得・選択
2. 前処理
3. データ変換
4. パターンの発見
5. データ解釈・評価
4.2 クラウドソーシングによるデータ準備
- データ収集 data collection
- 実世界から1次データを収集
- ex. 参加型センシング participatory cencing
- ex.クラウドセンシング crowd sensing
- 環境
- インフラ
- ソーシャル
- ex. 便乗型センシング oppourtunistic sensing
- ex. ピギーバックセンシング piggyback sensing
- データ整形 data processing
- 1次データを加工して2次データを成形する
- 5つ星スキーム
- データの利用可能性を表したもの
- PDF,XLS,CSV,RDF,LOD 右に行けば行くほど利用可能性が高い
- データにもともと備わっていなかった付加的な情報を付与する
- 二項分類 binary classifiaction:データ要素を二つのクラスに分類
- 多項分類 multiclass classification:データ要素を互いに重ならない三つ以上のクラスに分類する
- マルチラベル分類 multilabel classification:データ要素を重なりのある三つ以上のクラスに分類する[28]
- 回帰 regression:データ要素に5段階評価や数理を付与する[49]
- クラスタリング clustering:異なるデータ要素が同じクラスに属するか否かを判定する[34]
- ランキング ranking:データ要素に順序をつける[19]
5. ヒューマンコンピュテーションとクラウドソーシングの課題
- 将来、自分の子供たちをクラウドソーシング・ワーカとして働かせたいだろうか?」という問いは大事