「データサイエンティストの思考を止めない」テクノロジー
──IBMがデータサイエンティストに提供する分析環境とは、どのようなものになるのでしょうか?
湯本 データアナリストと呼ぶか、データサイエンティストと呼ぶかはそれぞれ見解が別れるところでしょうが、IBMとしては、こうしたデータと向き合い分析を重視する人は今後ますます重要になると考えます。
ポイントは、”データ分析に従事する人たちの思考を止めないテクノロジー”です。そのための提案が、PureData for Analytics(Netezza) +SPSSの組み合わせです。
従来PureData for AnalyticsはIBMに買収される前のDWHのNetezza(ネティーザ)の時代から、統計解析ソフトのSPSSと合わせて使われることが多かった。システマティックに連携をしていないまでも、当然ながら、同じレイヤーで使っていることは確かです。そして両方がIBMに買収され、連携度が高まり、インデータベースアナリティクスが実現しているのです。
──NetezzaのスピードがSPSSのモデル化にもたらす価値というのは何でしょうか?
湯本 元々Netezzaというデータベースはアプライアンスですから、スピードは他社製品に引けをとらないものがあります。これと高度な分析ツールが連携することでスピードは100倍、1000倍になる。これは分析をやられている方でないとピンと来ませんが、スピードには二つの意味があります。ひとつは、データからモデルというものを作るスピード。モデリングされたものを高頻度で細かい修正を行いながら、精度が高いものを適用していく中で、バックにあるデータベースは高速であればあるほど良い。データベースチューニングのために何日もかけてしまうことは、データ分析の目的からは外れます。
もうひとつは、現行のデータに対してスコアリングするという工程。これは、自社もしくはお客様が持つデータに対し、自分たちのモデルを適用させるという工程です。このモデリング&スコアリングという工程が高速化することによって、企業のビジネスにもたらす価値は非常に大きくなります。
すでに実用化されている高度な予測モデル
──こうした高速な基盤の上で、実際にどのようにして、ビジネスアナリティクス・オプティマイゼーションやソーシャル活用などを行っていくのでしょうか?
西牧 SPSSでコンサルタントを努めてきた立場から、今回のデータサイエンティストサミットでは、具体的な方法をご紹介します。
データを活用するまでには、いくつかのステップを踏む必要があります。まずはデータを収集しますが、そのままでは使えませんので、Ready to Useな状態にします。データを格納するという役割を担うのがNetezzaです。また、格納されたデータの使い道としては、BI(Business Intelligence)、Predictionがあります。BIはデータの見える化などで主にCognos Softwareが担います。今回ご紹介するはPredictionの部分になります。
──Predictionというのは予測分析などと言われるものですね。どんな技術なのですか。
西牧 データを構造化して、モデルを作り、それをもとに将来どうなるかを予測していくテクノロジーです。有名な事例では、大型特殊車両の故障を遠隔から監視する仕組みがありますよね。どういう条件で動かし続けると壊れるのかを予測しています。私達もお手伝いしていますが、2008年ごろから取り組みが報告されるようになって、今では、かなりの精度で予測できるようになっています。
アメリカの携帯電話会社における顧客対応の事例もよく引き合いにだされます。顧客から入電があると、その顧客の過去3ヵ月の通信量などを分析して解約しそうかどうかを予測します。予測のためのモデル自体は前日までデータから作成されます。それに加えて、オペレータとの会話の中でどんな表現が使われると解約されやすいかなどを分析します。もし、そういった表現が使われた場合は、どのように対策をすればいいのかをオペレータに提案するようになっています。オペレータはそれを見て、顧客にレコメンデーションをすることになります。