100723　エコ隊 - Spiny-anteaterの日記

今年度からエコ隊に参加させて頂いている。
ブログには書いてなかったけどメモ書きをちょくちょく載せていこうかと。

id:phoさんのシンガポール行きでメンバーが減ったぶん、残った側として少しずつ予習や復習の質を上げるつもり。
会社は残業解禁の時期が徐々に迫っているが、がんばって続けたい。

今回は3本の記事に取り組んで2本と半分くらいまで進めて終わった。

記事1 　Forget it !
原文：http://www.economist.com/blogs/newsbook/2010/07/business-school_research

人間は過去に知った情報に流されがちと考えられていたが、誤った情報を排除する能力は意外と高いのかもしれない、と結論づけた研究について紹介した記事。

紹介されたのはペンシルバニア大学のUri Simonsohn教授による研究で、題材として用いられた事件は以下のようなもの。

・Consumer Report誌がチャイルドシートの安全性ランキングを掲載した
・しかし安全性をはかる調査方法に不備があり、2週間後に訂正記事が出た
・訂正の前後でランキングにも変化があった

そこで、訂正記事のでる前後でチャイルドシートの価格にどのような変化が出たか、を調べた結果

・訂正前はランキングが低かった銘柄の価格は訂正後に上昇した
・訂正の前後で変化のなかった銘柄は価格も変化しなかった

ということがわかり、消費者は過去に得たランキングの情報を修正できていることが示された。

って話なんだが、この調査だけから言えることってのはあんまり多くなさそうな気がする。最後の方の段落ではSimonhson博士の結論に対する反論なども書かれている。個人的にはあまり説得力のある記事とは思わなかった。

ただ、以下にも紹介するように、今回読んだ記事はどれも『情報の選別』に関わるテーマなのが面白い。個人の志向にマッチした情報の入手方法の開発がIT分野ではあらゆる方向から行われてるってことなのかな。

記事2　Correct me if I'm wrong…
better speech-recognition technology

原文：http://www.economist.com/node/16577398

こちらは最近の音声認識技術について。

最近の音声認識プログラムは単に話された単語を識別するだけでなく、前後の単語のつながりから考えてここはこの単語の可能性が高い、みたいな計算を統計的に行うらしい。
ただ、単語同士の関連性を計算するプログラムなので、1つ間違いがあると全体にエラーが波及してしまうといった問題もあるとのこと。

ケンブリッジ大のチームが開発したParakeet (単語の意味はインコ。音声認識だからか)というプログラムは、予測された複数の文章からタッチパネル操作で正しいものを選ぶことができるらしい。統計的なプログラムだとはじかれてしまうような文章も選択できるようなので、フランクな会話にもマッチしていそう。

また、Pocket Sphinxと呼ばれるオープンソースの音声認識技術のプロトタイプがカーネギーメロン大学で開発されたようで、最後の段落に軽く紹介されている。

手が自由に使えない車の中とか、ゲームの世界とかで音声認識技術の活躍の場が広がりそう、というのが記事の結論。

エコ隊メンバーで話したのは、ラブプラスみたいなゲームに採用されて、女の子が自分の声に反応するようになったら、ますますあちら側にいく人が増えるのかな−、みたいなこと。
何かを得ると何かが失われるということですね。

音声認識技術においても、『ほしい情報の選別』が大きなテーマになっていることがわかる。単に文法として正しい文章をつくろうとするプログラムよりも、ユーザの意志を反映してくれるプログラムが望まれている。

記事3　The Difference Engine ： The wisdom of crowds

原文：http://www.economist.com/node/21008482

Technology Babbageというコーナーで紹介されている記事。*1

この記事は途中までしかいかなかった。5段落目くらいまで読んで、大ざっぱに書くと下のような内容が書かれていた。

かつて情報収集に親しい人の意見や図書館、調査やコンサルタントなどを利用していた状況が変化し、ウェブ上から大量の情報が得られるようになった。しかし、ブログなど読むと価値のある情報は不足している。
ただ、マーケットの世界でも政治や世論の世界でも、理屈よりも感情がものごとを動かしており、オンライン上の感情的な議論を情報源として利用した選挙の動向調査手法なんかも開発されているらしい。

このあたりの文章と、上の2記事を踏まえて考えると、
人間という、論理で割り切れない感情的なものと、理論ベースでつくられたコンピュータ・プログラムとの関わりかた、という大きなテーマが背景にあるような気がする。

以下は自分用のメモとして6段落目以降の内容を順に書いてみる。間違いなどあったら指摘して頂けたら助かります。

6段落目
・しかし、感情に後押しされた意見がもっとも影響力をもつのは経済分野である。
・それらの意見は、多くの商品の購入決定に影響して世界を動かしているので、無駄な情報を省いてオンライン上の叡智を汲み取るような手法を見つける必要がある。　
make ~ go round : ~を動かす

7段落目
口コミの驚異的な影響をいかに抽出するか、は社会科学者が取り組んできた課題であり、近年では自然言語処理の学者が取り組んでいる。
さらに今では、約60の会社が、依頼者の顧客や有権者の考えをより深く知るためのツールを開発するオフィスを開設した。

word-of-mouth : 口コミ
constituent : 有権者

8段落目
・多くの技術はセマンティック・サーチ・エンジンを用いてWeb上から意味のある、曖昧さのない情報を収集しているが、そういった自然言語プロセシングは医療や法律などの限られた分野で有効である（くだけた情報は抽出しにくい仕組みになっている、ということかな）。
・GoogleやBingなど通常のサーチエンジンはウェブ全体をインデックス化するのでコンピューターに負荷がかかりすぎる。
disambiguate : 〜の曖昧さを除去する

9段落目
"deep content analysis"と呼ばれる手法は、完全で曖昧さのない文章をコンピューターに理解させるが、客観的な事実に関する記述と感情的な記述をあまり明確に区別しないので、ウェブ上で実際に言われていることをよりよく理解できる。

10段落目
・客観的なソートから感情に後押しされたコンテンツを抽出するのは非常に難しく、関連する文書や条項(clause)はブログなどの情報の中に埋もれてしまう。
・それらを見つけるには意味のある情報を抽出し、そこに含まれる感情がポジティブなのか、中立なのか、ネガティブなのかを判断して指標化しなければならない。

detached 第三者的立場の

11段落目
・問題はそれだけではなく、分析している対象が評価に足るものか、どのような特徴を持つか、感情の強さ、誰が記述しているか、いつのものか、という5つの変数が表現には含まれる。
・分析者の仕事はそれら5つすべてを掘り起こし、無駄なものを除去することで、その仕事を経てようやくデータを処理することができる。

quintuple : 5倍

12段落目
・これらは非常に骨の折れる仕事であり、多くのスタートアップ企業が取り組んでいる。
・ヴァージニア州のCarabridgeという会社は、意見を抽出するテキストマイニングのソフトウェア販売により、ここ数年の成長率は50％以上である。
・同社のautomated sentiment tools (自動感情読み取りツール？) はフォーチューン1000に入る多くの企業に使われている。

grunt work : 単調でつらい仕事

13段落目
・Carabridgeのソフトにより、企業はこれまで80％程度を破棄していた顧客からのフィードバックを処理できるようになった。
・さらに重要なことに、手作業で何週間もかけていた作業をリアルタイムで行い、かつ11段階のスコアリングもしてくれるので、企業は顧客のニーズをより深く理解し、迅速に対応できる。

14段落目
・近年ではヒトゲノムの解読からヒントを得た (ゲノム解析と似た処理を行っているということだと思う) 感情エンジンが株式市場に関する意見をリアルタイムで抽出しているようで、大もうけにつながるキラーアプリが登場するかもしれない。

*1:id:shiumachiによると、Babbageは19世紀の数学者で、コンピュータを初めて設計した人らしい　(実現しなかったけど、その設計通りにつくったら動いたとのこと。すごい）。