速さはもちろんデータベースの中で分析までできる利点(小島氏)
「分析のやり方はさまざまなものがありますが、中にはスピードがなければ成功しない分析もあります」と言うのは小島氏だ。たとえば、オンラインゲーム業界などでは、無料でまずはゲームをできるようにし、そこからお金を払いアイテムなどを購入してくれるユーザーを増やすというアプローチをとる。
「上位の得意顧客は企業にとって極めて大事です。彼らには離反して欲しくありません。長く使ってもらうにはどうすればいいのか、それを徹底的に分析しています」(小島氏)
ユーザーの利用ログなどをさまざまな角度から分析する。分析そのものはうまくいっても、ITのスピードが追いつかないという課題がある。たとえば、離反してしまう可能性の高い行動パターンの分析を行う。これまでは分析のスピードが遅く、1日に1回しかそれができなかった。これでは、最短でも1日後にしか対策はとれず、そのタイミングではすでにサービスをやめてしまうかもしれない。この遅かった分析プラットフォームを改善し、5分で分析できるようにした。これで、タイムリーな離反防止策が打てるようになる。「分析のスピードがキーになります」と小島氏。
またオンライン広告のリサーチの分析を行っていた企業では、リレーショナル・データベースやHadoopを適材適所で使い分けるといった最適化まではおこなっていた。
「数分前の状況も分析したいというさらなる要求がありました。しかしながらどんどん新しいサービスが登場してくるので、(コンピュータという)『機械ごとき』に手間をかける暇がない」と言われたそうだ。つまり、オンライン広告のような変化の激しい世界では、いちいちデータベースのチューニングなどを行って対処している暇はないと言うことだ。また、あるECの企業では集中的に分析を行える大規模なデータウェアハウスを構築し運用を始めたが、分析のための十分な性能を得るために結局はユーザーニーズに応じ部門ごとに専用の分析環境を切り出して用意しなければならなくなったとか。
これらのような分析スピードから発生する課題に対し、IBMではPureData for Analyticsを用意していると小島氏は言う。
「これは昔Netezzaと呼ばれていた製品であり、IN-DBアナリティクスが実現できます。これはこの製品にしかできません。IBMは、このNetezzaテクノロジーをユーザーにより近いところで使う製品として提供しています」(小島氏)
データベースが速いということは、もはやビッグデータ分析では当たり前だ。その上での使いやすさが求められている。ユーザーが徹底的に使い倒すことができるような簡易性が必要なのだ。使いやすければ分析したい人は誰でもが使えるようになる。「データベースを使いこなすために、専用の資格を取得しなければならないなんて言うのはダメです」と小島氏。
NetezzaことPureData for Analyticsのアーキテクチャは、超並列処理、FPGAチップの活用、Zonemapの3つが特長となっている。
「超並列というと部屋いっぱいのコンピュータを想像するかもしれません。Netezzaは、1ラックで超並列に動くスーパーコンピュータです。FPGAというチップはTVやDVDプレイヤーに入っているもので、流れてくるデータを処理するものです。データウェアハウスなどでは、無駄なデータが大量に流れています。それをFPGAが捨ててくれるので、必要なデータだけを受け取れます」(小島氏)
3つめのZonemapは、HDDのどこに何を書いたかを記憶してくれる技術だ。これも、大量にデータがある際には性能の向上に大きく貢献する。これらのNetezzaの技術を活用すれば、実際に10時間以上かかっていた検索処理が2.4秒に短縮した事例もあるとのこと。従来の数千倍から数万倍、それがNetezzaのスピード感覚だと言う。
とはいえ、速いデータベースは作ろうと思えば作れる。しかしながら「IN-DBアナリティクスはNetezzaにしかないものです」と小島氏。過去に何が起きたかをレポートするのも大事だ。けれども次に何が起こるのか、それが分かるとデータの活用具合が変わる。それをやろうとすると、データベースに求められるのは速さだけではなくなると小島氏は指摘する。
「必要とされる技術が変わります。未来の予測はNetezzaを使ってもSQLだけではできません。パターンを発見したり予測分析やクラスタリング分析を行ったり。これはデータベースだけでは処理できないのです」(小島氏)
そのためデータベースの外で、SPSSやR言語を使って高度な分析を行うことになる。その際に問題になるのが、データベースとそういった高度な分析環境の間で「データがぐるぐる動くこと」だと小島氏は言う。データが多くなれば、このやり取りがボトルネックになるのだ。そしてこのボトルネックは、データベースが速くなってもなかなか解消できない。
そこでNetezzaでは従来は外側で行っていたSQLでは行えないような分析処理を、データベースの中でできるようにしてしまったのだ。
「1ラックのNetezzaの中には240ものコンピュータがあり、それで動くデータベース基盤の上に分析エンジンを載せられます。さまざまな言語で作ったプログラムも入れることができます」(小島氏)
結果的にデータベースの中で、データの準備から整形、モデリング、スコアリングなど300以上の分析処理が行えるようになっている。「Netezzaにほとんどのものを集約できます。これでNetezzaがたんなるデータベースではなく、あらゆる分析のプラットフォームとなるのです」と小島氏は言う。
分析を定着させ業務に適用できてこそデータサイエンティストの意味がある(西牧氏)
西牧氏は、ここ1年くらいでデータサイエンティストの姿に見直しがかかったのではないかと言う。当初は、HadoopやR言語も使いこなせ統計にもテクノロジーにも詳しいスーパーマンが必要だとの話だった。しかしそんなスーパーマンはなかなかいない。ならばチームで対応すればいいという方向性に最近はなってきている。実際にデータサイエンティスト・チーム体制で成功している例も出てきている。また、データサイエンティストでは、これまでは話題がどちらかと言えば統計や分析技術などに偏りがちだった。
「一番大事な顧客についてはあまり語られてきませんでした。顧客が何に困っているのか、それをきちんと捉え勘ではなくデータで判断する。それで顧客とのコミュニケーションをとれるのがデータサイエンティストなのではないでしょうか。そういった人は意外にいません」(西牧氏)
顧客視点で関係者間を調整し、課題を解決する。そのための策定能力やコミュニケーション能力がデータサイエンティストには求められる。さらに、業務知識のない人にいきなりデータサイエンティストをやれと言ってもうまくいかない。業務の課題をどう解いていけばいいのか、それをイメージできる人でなければデータサイエンティストは務まらないだろうと西牧氏は言う。
そういった人材を社内で集めチームを作る場合もあれば、外部に人材を頼ってチームを構成することもある。製造業などでは、業務現場に統計などが得意な人がいる場合も多い。そうでない場合には、IT部隊でデータサイエンティストチームを作ることもある。
「ITの場合は、部署の中にデータを扱える人材がいるのが利点です。さらに業務部門を横断して対処できるのもメリットでしょう。課題は、企業の中では顧客から遠いところにいることです」(西牧氏)
どのようなデータサイエンティストチーム構成がベストかの正解はない。さまざまな構成で、それぞれの取り組みを始めているのが成功している企業の現状だ。そんな分析を使い成功している企業の1つに、ある国内通信業のお客様がある。この国内通信業のお客様の場合は、IT部門の中で分析を活用しうまくいった例とのこと。ITで経営をよくすることを目指したのだ。まずは安価にデータウェアハウスを構築し、次にR言語を使って分析を始めた。これらの環境は安価ですぐに手に入るものだったが、それで成果を出せるようになるまでにはかなりの手間と時間がかかった。「それをNetezzaとSPSSの組み合わせにしたら、6ヶ月の苦労があっと言う間に実現できたとのことでした」と西牧氏。
さらに、分析を行い成功するためのポイントは、業務課題が何かを見極めるところにあると西牧氏は指摘する。
「顧客化や顧客育成、顧客の維持は利益に直結するものです。リスクの回避や不正の検知はコストに直結します」(西牧氏)
たとえば、クラスター分析などを使って顧客をグループ化する。グループごとにその特性を考慮しながら顧客をどう育成するかを考える。育ててステージを上げるグループもあれば、関係性を維持し客単価の向上を目指すべきグループもある。「企業や顧客にどういった問題があり、それをどう解決していけばいいのか。それを考えるのがデータサイエンティストです。分析を業務に適用できて始めて意味をなします」と西牧氏は言う。
難しい課題に対し分析してレポートで中身を解き明かすのも大事だ。しかし、分析の結果を業務に適用し、悪いことを見直す流れを作る。それを自動化できることが成功につながる。分析することが目的ではなく、組織の中で分析を定着させPDCAのサイクルが自動で廻るようにする。「そういったときには、SPSSのようなツールが必要になります。R言語でプログラムするのではうまくいきません」と西牧氏。分析のサイクルを自動化し業務アプリケーションと連携するための仕組みとしては、IBM SPSS Collaboration & Deploymentというツールも用意されているとのことだ。
もう1つデータサイエンティストではなくても、分析が行えるようになる世界が間もなく登場するとも言う。それがWatson Analyticsで実現する世界だ。Watsonなら人間の質問に自然言語で答えてくれるようになる。自然言語の知識ストックの中から、目の前の課題の答えを見つけてくれるのだ。このWatsonがあれば、やがてデータサイエンティストは必要なくなるのだろうか。
「Watsonが行う分析の前段部分を、データサイエンティストが知らなければなりません。玉手箱的にWatsonで答えが得られるのではなく、誰かが適切な答えが得られるよう準備することが必要です」と西牧氏。準備する部分をデータサイエンティストが担うことになり、そうしなければ誰もが分析を業務に適用できるようにはならないと言う。
「Watson Analyticsは、分析の風景を変えるものでしょう。そうなることがWatsonには期待されています」(西牧氏)
本記事紹介のセッションをはじめ、「データサイエンティストサミット2014 Autumun」(開催:2014年11月20日/主催:翔泳社)の講演資料をダウンロードいただけます。
ダウンロードはこちら ⇒ selectox