テラデータはアナリティクスやデータ活用に関する世界的な企業。かつては「データウェアハウス(DWH)」の企業として、企業のIT部門にはよく知られた存在だ。
中でもCTOのブロブスト氏は、2014年には全米トップCTOの第四位に選ばれており、ビッグデータ分析の世界では最も影響力のある人物の一人である。その独特の風貌と大きなジェスチャー、力強い口調で熱弁を奮う様子は、どこか「バック・トゥ・ザ・フューチャー」の博士を思わせる。
AI・機械学習のフレームワーク「Think Deep」
──テラデータは以前はデータウェアハウス(DWH)の会社という認識がされていました。以前は大きなデータの塊を作って、バッチ処理で分析をおこないマーケティングなどに活かすというイメージがあります。ここ数年のIoTなどの流れの中で、かなり変わってきていると思いますがいかがでしょうか?
ブロブスト氏: データを分析・活用するためのプラットフォームを提供しています。そのために必要になるのが「データレイク」というデータを格納する仕組みです。これは昔のような整備された静的なデータだけではなく、マシンやセンサー、SNSのような様々なビッグデータを貯蔵する仕組みです。
またテラデータが2014年に買収した、Think Big Analytics(以下Think Big)というチームが提供している「Kylo(カイロ)」というオープンソースのデータレイク管理向けソフトウェアあります。HadoopやNiFiとの統合も進めており、ストリーミングやメタデータを収集する仕組みとして提供しています。
── AIや機械学習についての取り組みはいかがでしょうか?
ブロブスト氏: Think Bigのソフトウェアのチームが「Think Deep」というフレームワークを作りました。これは、機械学習と深層学習のアルゴリズムを実装するためのモデリングを管理するためのものです。このフレームワークを使うことで、データ分析の専門家ではないビジネス部門の人や経営やマーケティングのそれぞれの部門が、データ分析のためのモデリングができます。いわば「シチズン・データサイエンティスト」のためのものです。
──オープンソースツールの集合体と考えてよいでしょうか?
ブロブスト氏: Think Deepには、Sparkの機械学習ライブラリやCaffe、TensorFlowなどが含まれますが、オープンソースに限定するものではなく、ベンダーのツールにも対応しています。ただアルゴリズムの最先端はやはりオープンソースの側にあると言えます。変化に迅速に対応していくために、プラグインによってアルゴリズムを追加できるというものです。
── どのような用途で使われているのでしょうか?
ブロブスト氏: 金融サービスでの不正の検出や、製造業における品質管理や歩留まり管理などの分野があります。さらに顧客の挙動や、製品に対する需要の予測といった領域に使われています。Think Deepの強みは、機械学習のような線形アルゴリズムとディープラーニングなどの非線形のアルゴリズムの両面で使えるということです。YARNベースのアーキテクチャのHadoopに対応しています。
── IoT分野についてはいかがでしょうか?
ブロブスト氏: もちろんIoTにも適しています。製造ラインにおけるセンサーデータとディープラーニングは非常に親和性が高い。ハイテク系の製造工程では変数が100万近くあります。これに対して線形のアルゴリズムで分析するのは難しく、多階層型の非線形アルゴリズム、ニューラルネットワークを使って欠陥を検出していく必要がある。Think Deepはそうした作業に向いているのです。
方法としては中心に様々な製造設備からの多くのデータを集約し、そこでモデルの作成を行い、そこで得られたモデルをエッジ側にプッシュするというものです。エッジ側ではルールを実行する狭い意味での最小限の分析(ナローアナリティクス)をおこない、学習とモデリングは中央で一元化して行います。例外が発生した場合は中央に処理を戻し、モデルを改良していくという流れです。デルやシスコがこのエッジの部分を担っています。
──その方法は、IoTでは一般的な形なのでしょうか?
ブロブスト氏: 細かい処理はエッジが行い、中央がモデルを作ってエッジに送るという仕組みは、大規模なIoTのプロジェクトでは一般的に行われている手法です。たとえばコネクテッド・カーであれば実際の実行は車両で行いますが、学習は中央のシステムがおこない、それによってモデルはさらに洗練化されます。即時の判断が必要なので、処理自体はエッジ側の車両がおこないます。
こうしたアーキテクチャの時代には、データの処理基盤のソフトウェアとアルゴリズムの両面が重要となります。そのため、分散型のデータベースであるHadoopのディストリビュータであるクラウデラや、ホートンワークスとの関係を強化してます。
Hadoopで言えば、数年前までは「Hadoopが世界の飢餓まで救える」というぐらいに何でも解決できるという過剰な期待がありました。今はHadoopやCassandra、MongoDBなどの役割と使い分けが、冷静に話せる状況になったと思います。
先ごろクラウデラがUSでIPOをした時、Hadoopのディストリビューターとは言わず「AI、機械学習のプラットフォーム」と自分たちを位置づけてIPOは大成功しました。私は数年前に「ビッグデータという言葉は消える」と予測しましたが、今その通りになって「AI・機械学習」がマーケティング上の期待時期にあると言えます。つまり今後は「データとアルゴリズム」がビジネスを制する時代だということです。