自然言語処理技術で非構造化データを解析し、クイズに回答
村上明子氏は、日本アイ・ビー・エムの東京基礎研究所において、自然言語処理の研究をしてきた。同時にビジネスの現場に出向き、顧客の課題を最先端の研究の技術を用いて解くことなども行っている。
本セッションのテーマはビッグデータの中核であるソーシャルデータのビジネス活用だが、実はIBMでは2000年代前半から、「大量データの時代が来る」と言っていた。ただ、その頃の想定規模は「テラ」だったが、2002年にテラ、2005年ペタ、2009年エクサ、2011年ゼタバイトのデータを活用する時代になっている。
インターネットにソーシャルメディア、ネットに接続した各種センサー、監視カメラなどの普及により、データはいくらでも取得して蓄積し、分析することが可能になっている。ただ村上氏は「目的は何か、貯めたデータをどう活用するのかが決まらなければ、分析は進まない」と語る。
そこで実例としてまず紹介されたのが、IBMの「プロジェクト・ワトソン」だ。これは2012年2月、米国の人気クイズ番組で、IBMが研究開発したWatsonと呼ばれる質問応答システムが歴代チャンピオンと対決し、互角の戦いを見せたものだ。出題されるのは、幅広いジャンルの知識が問われる正統派のクイズで、Watsonには質問文が、テキストファイルとして入力される。まずここで求められるのは正確な構文の解析になる。Watsonにはニュース記事、百科事典、ブログ記事といった文書に加えて、辞書、語彙体系など、予め大量の情報源が蓄えられている。その中から解答候補を生成し、解答候補の根拠を探索し、確信度を計算。もっとも正解に近いと判断した回答候補を、クイズ王に負けない速度、精度で導き出した。