発表が相次いだ「Data + AI Summit 2022」を振り返る
──まず、Databricksが提供する「レイクハウス・プラットフォーム」の特長を教えてください。システムを使う米国企業の反応はいかがでしょうか。
お客様にとってベストなことは「使い勝手がシンプルで、コストを下げ、かつパフォーマンスが良いもの」だと考えています。データレイクでも機械学習やAI活用には良いのですが、SQLといったデータ分析に関しては苦手とされてきました。一方で、レイクハウス・プラットフォームは、企業がデータやAI用に使っているパブリッククラウド上に構築します。そうすることで、ユーザーは膨大な量のデータを管理することができるようになるのです。
この点は米国のユーザー企業にも大変気に入っていただいています。従来データウェアハウスでは、データアナリストのためにデータを複製する必要がありましたが、それが不要になるからです。言ってしまえば、データウェアハウスそのものを持たなくても大丈夫なようになりました。それに、これらはすべてオープンソースで構築しているので、仮に弊社製品を使わなくなったとしても、レイクハウスを使い続けることも可能にしています。
また、今回の年次イベント「Data + AI Summit 2022」のスポンサーを見ていただくとお分かりのように、Microsoft、AWS(Amazon Web Services)、Google Cloudといった大手クラウドベンダーが名を連ねています。私たちの製品を使うということは、すなわち彼らの製品を使うことにもなるからです。
──御社の製品は機能はもちろんですが、オープンであることも特長の一つですね。今日(取材当時)の基調講演では製品の機能アップデートがいくつも発表されました。製品開発の責任者をされているMeyerさんから、改めて注目の機能を教えていただけますでしょうか。
私が一番ワクワクしているのは、弊社でしか使えなかった機能を含めて「デルタレイク2.0(Delta Lake 2.0)」としてオープンソースにすることです。それがオープンソースのコミュニティなどで使われることで、どのクラウドにもデルタレイクが使われるようになる可能性があることに、とても興奮しています。
そして、特に注目しているのが「データマーケットプレイス(Data Marketplace)」です。デルタシェアリング(Delta Sharing)の上にデルタレイヤーというのがあり、その上にデータマーケットプレイスがあります。データマーケットプレイスでは、データや機械学習のモデルといったものを皆で共有することを可能にしました。
たとえば、日本のユーザーが、米国企業のクラウド上に格納されているオープンデータを使いたいとなった場合、データを動かすことなく使うことができるのです。データだけでなく、データ資産や機械学習のモデル、ノートブック、ダッシュボードといったものも使えるようにしたのは、恐らく弊社が初めてだと思います。そういうことをシステム全体でオープンな形で可能にしています。