データサイエンティストが携わる作業は、1)データを集める、2)グラフなどで可視化する、3)傾向を分析することで過去のパターンを見つけ出す、4)結果から将来を予測する、5)予測から最適化して制御するという5つのステップがある。
本橋さんによれば、「データサイエンティストの本質は、ステップ3以降です。もっと言えば4つ目と5つ目のところで最も力を発揮すべき」だという。
とはいえ、日本では1から3のステップで終わっていることが多い。なので、日本におけるデータサイエンティストの仕事の多くも、傾向から過去のパターンを見つけるところ止まり。このままではデータサイエンティストの仕事が、今後日本で高く評価されないのではと本橋さんは危惧している。
場合分けを自動化する異種混合学習技術のすごさとは
5つのステップをすべて1人でやるのも現実的ではない。現実的にはチームを構成し対処することになる。
「データサイエンティストがどうあるべきか。企業によってチーム構成もさまざまでしょう。自社内に人材を抱えたほうが良い場合もあるし、我々のようなベンダーにアウトソーシングすることもあるでしょう」
当然ながら社内のデータサイエンティストとベンダーなどに所属するデータサイエンティストはスキルセットも違ってくる。企業内のデータサイエンティストは自社業務に特化したデータ分析手法に長けているはずだ。
「ベンダーに所属する場合は、どこかの業界に強い場合もありますが、どちらかと言えばドメインには依存せず、分析手法のスペシャリストとなります。我々のようなベンダーのデータサイエンティストの強味は、たとえば鉄道業界でうまくいった分析手法をまったく別の業界に持っていけるところでもあります」
成功事例の横展開については、強く意識していることの1つとのことだ。
ところでそんな本橋さんたちが得意としているのが、「異種混合学習技術」を用いたデータ分析手法だ。異種混合学習技術とは、一言で説明すると場合分けの自動化だ。しかし、この技術、とても難しい技術なのだ。
たとえばコンビニエンスストアでおにぎりが何個売れるかを予測する。その際には平日と休日では予測が異なる。平日でも月曜日と金曜日で異なるし、暑い日、涼しい日でも違ってくる。状況が異なるのでデータを分けて分析することになるが、条件の違いを見ていけば場合分けはどんどん増えてしまい対処しきれなくなる。
これに対してNECの異種混合学習技術は、「データの塊を分析エンジンに適用するだけで、どのように場合分けすべきかを自動で見つけてくれるのが最大の特長」という。この自動の場合分け技術は、人の行動などに依存しているものを予測するのに適している。パラメータや条件を変え試行錯誤を繰り返しながら場合分けするのではなく一括したデータを投入するだけで自動化できる。
「通常であればスーパーコンピュータを使ってもなかなか終わらないような計算が、NECの研究所が開発したアルゴリズムを適用することで普通のコンピュータでも実現できるようになりました」
機械学習技術は、ここ最近かなり大きな進化がある分野だ。進化の中での課題は「精度と解釈性の両立」だという。今流行っているのは「高精度で解釈性が低い」機械学習技術だ。これは、いわゆるニューラルネットワークなどを使って予測をするもので「よく分からないけれど答えが出て、それが高い精度で当たる」というもの。
とはいえ、オペレーションの改善などビジネス分析で活用しようとすると「人間が解釈できなければダメだとNECでは考えています。なぜなら、結果を理解してビジネスプロセスにフィードバックしたいからです。結果の解釈性が高くないとそれは実現できません」
世の中にはとにかく精度が高く合致すれば良い世界はある。たとえば、顔認証などで犯罪者などを見つけ出したい場合などだ。しかしながら、オペレーションを変えたい場合はそうではない。答えが合うだけでなく、結果をフィードバックするにはなぜそうなったのかが理解できなければならない。それができるのがNECの異種混合学習技術だと本橋さんは言い、この技術の特長が解釈性の高さなのだ。
NECではニューラルネットワークを用いた機械学習ももちろん研究している。しかしビジネスで利用するには、精度の高さだけでなく解釈性、保守性、調整の可能性といったことも必要だ。シーンによっては答えを当てるだけでなく、条件を変えるとどうなるかという観点も必要なのだ。これがまさに、データサイエンティストの5ステップの5番目に該当するところだ。
「トータルで考えた際に、異種混合学習技術は優位性があると思っています。これを使えば、予測に基づくオペレーションの改善を行うときなどに最適な分析シナリオが提供できます」