データのサイロ化を解消しAIも活用する「レイクハウス」
ガートナーの競合分類手法であるマジック・クアドラントで、2022年にクラウド型データマネジメントシステムとデータサイエンス&機械学習という2部門でリーダーに位置づけられているDatabricks。同社はApache Sparkの技術をベースとしたデータレイクハウスのソリューションで、順調にビジネスを拡大している。2020年9月に日本法人を設立し、東京海上日動火災保険、日本経済新聞社、ソフトバンク、カルビーなど国内各社でDatabricksの導入が進んでいる。同社の社長に2023年1月から、セールスフォース・ジャパンでデジタルマーケティングビジネスユニットの専務執行役員兼ジェネラルマネージャーを務めていた笹俊文氏が就任した。
データは企業にとって重要との認識は拡がっている。データを使い企業が実現したいのは、顧客との関係性をより良いものにする、サプライチェーンの最適化のために高い精度で需要などを予測する、さらに自動化を実現して効率化するなど。しかし、いざ企業がデータを活用しこれらに取り組もうとしてもなかなか上手くいかない。その原因の1つが、データのサイロ化だと笹氏は指摘する。
ERPなどのパッケージアプリケーションの利用やSaaS導入が進み、それぞれのシステムでデータを蓄積しレポートや専用ダッシュボードなどでデータを見るところまでは容易にできる。しかしそこからビジネスにおける価値を生み出すことがなかなかできない。
たとえば、サプライチェーンの需要予測をするために、ばらばらなシステム間のデータを統合し、分析できるようにしなければならない。データ統合のためのバッチ処理は、1日に1回しか行えないことが多い。それでは、オンライン化が進みビジネススピードが速くなる中で求められるリアルタイムな需要予測は不可能だ。データのサイロ化が、ビジネス価値を生み出す阻害要因となっているのだ。
また、データベースにある構造化されたデータであれば、比較的容易にデータウェアハウスに統合化できるかもしれない。しかし現状ではセンサーデータやシステムログ、SNSの情報など、非構造化、半構造化のデータも取り込んで分析できなければ、より高度で正確な予測分析などは難しい。構造化から非構造化データまで、全てを効率良く蓄積するのは容易ではない。仮にあらゆるデータを蓄積できるようクラウド上にデータレイクを構築しても、データをそこにコピーするとなれば大きなストレージが必要となりコストもかかる。
レイクハウス・プラットフォーム
データのサイロ化を解消しAI、機械学習技術を用いた高度な分析も可能にするレイクハウス・プラットフォームを提供するのがDatabricksだ。Databricksは、Apache Sparkの技術をベースにしており、大量なデータも高速に処理できる。さらに、データを統合するのにコピーをしないのも特長だ。「DatabricksはAWS、Azure、Google Cloudという3つのクラウドストレージあるデータを、コピーせずにそのまま利用します」と笹氏。Databricksの技術はオープンソースの技術をベースとしているので、オンプレミスの環境にも展開できる。