読者です 読者をやめる 読者になる 読者になる

ヒューマンコンピュテーションとクラウドソーシング

今後の研究で関連しそうなので、鹿島久嗣先生のヒューマンコンピュテーションとクラウドソーシングを読みます。 理解した内容を整理する目的で、何度かに分けて記事にしたいと思います。


深層学習を筆頭に機械学習研究の発展が一層勢いを増しています。 コンピュータが囲碁のプロ棋士に勝利したニュースは記憶に新しく、 今や、知的な行いだと信じられてきた様々なタスクでコンピュータの性能は人間の性能に迫りつつあります。

さて、華々しい研究成果が注目を集める一方で、機械学習研究が取り組んでいる問題の本質はそれほど変わっていません。 問題設定はこれまで通りで、その解き方もこれまで考えられてきたモデルの上での発展であるからです。 したがって、今のところ、機械学習は人間の持っている「知能」と等価になるようなものではありません。 しかし、機械学習をデータの利活用のための「道具」として見たとき、それは極めて強力な武器として機能します。

機械学習という「道具」は、人間の知識やアイディアと組み合わさることで大きな価値を生みます。 機械学習の大きな枠組みの1つに教師あり学習があります。 教師あり学習では、入力と出力の対が与えられ、その対応を学習することで、 未知の入力に対して適切な応答ができるようなモデルを構築することを目指します。 例えば、画像分類は教師あり学習に分類される問題の一つであり、未知の画像を自動的に分類することが目的です。 これは、入力が画像、出力がその画像のカテゴリー情報である場合の教師あり学習の問題であり、 郵便番号の自動識別など様々な形で応用されています。 ここで重要なのは、教師あり学習でモデルを学習するためには、入力に対する正しい出力が用意されている必要があるということです。 入力に対する正しい出力を学習することは、言い換えれば、われわれ人間が何を正しいと考えるかを学習することであり、 その学習のためにはわれわれの知識を導入することが欠かせません。 したがって、画像分類を含めた多くの教師あり学習問題では、学習に先立って、人間が手動で教師データのラベリングを行う必要があります。 これは、人間をある種の知的な演算装置とみなして適切な出力を計算し、その出力を真似るようにコンピュータに学習させていると解釈できます。 ヒューマンコンピュテーションとは、コンピュータが自力で解くことが困難なタスクを人間の能力を利用して解決することです。 教師データのラベリングを人間の能力、データの対応の自動学習をコンピュータの能力とすると、教師あり学習はヒューマンコンピュテーションの一例といえます。

現在のそうした人間と機械の協調を支えている仕組みがクラウドソーシングです。 クラウドソーシングはインターネットを通じて不特定多数の人に仕事を依頼すること、もしくはその仕組みのことを指します。 例えば、一般に問題が難しければ難しいほど、データから統計的な性質を獲得するために必要な学習データは膨大になり、 それらに教師データを付与するのは大変な作業になります。 一方で、ラベリングという作業そのものはそれほど難しいものではありあません。 そこで、膨大なタスクを数秒から数分で実行できるサイズのタスク(マイクロタスク)に切り分け、 世界中にいるワーカに少しずつ分担させることが行われています。

もちろん、クラウドソーシングの実施形態はマイクロタスク型だけではありません。 依頼者とワーカの目的に応じて、いくつかの種類が存在します。

  • マイクロタスク型: ワーカはごく短い時間で完了する単純な仕事を行います。
  • プロジェクト型: ワーカは専門性が必要な仕事を行います。
  • コンペティション型: ワーカは同一の課題に取り組み、一部の優れた成果にのみ報酬が支払われます。
  • ボランティア型: ワーカは社会貢献などを目的として、無償で仕事を行います。

重要なことは、ヒューマンコンピュテーションは人間を演算装置として複雑な問題を解決するという考え方であること、 そして、クラウドソーシングは大勢のワーカを容易に調達するプラットフォームを提供するということです。 このような考え方に基づき、人間の処理能力そのものをアプリケーションに取り込むことで 現状の「道具」では解決できない問題に取り組む例も登場しています。


鹿島 久嗣・小山 聡・馬場 雪乃 (2016) 『ヒューマンコンピュテーションとクラウドソーシング (機械学習プロフェッショナルシリーズ)』 講談社