米Databricksは6月27日から30日(米国時間)の4日間、「Destination Lakehouse」をテーマに年次イベント「Data + AI Summit」を開催。米国サンフランシスコの会場とオンラインのハイブリッド開催だったが、対面で同イベントを行うのは、新型コロナウイルス感染症の拡大以降3年ぶりだという。参加者は会場で約5,000人以上、オンラインで約50,000人以上にのぼり、延べ160ヵ国からだとしている。
2日目の基調講演には共同創業者 兼 CEOのAli Ghodsi氏が登壇。同氏は、企業におけるデータとAIの活用状況について、横軸にデータ活用の成熟度、縦軸にそのデータからどれだけの競争優位性やビジネス価値を引き出しているかを示した曲線を用いて説明した。右側にいくほど予測モデルの活用が進んでいることになるが、Ali氏は「ほとんどの企業は右側に到達していない」と話す。その理由に、データウェアハウスとデータレイクの2つのテクノロジーが分断されており、活用に時間がかかってると指摘した。
そこで「Databricks Lakehouse Platform」では、クラウドデータレイクを活用することで、その複雑さを解消。さらに、マルチクラウドへの対応やAIの活用、オープンソースとオープンスタンダードで構築されたものであることもアピールした。
続けてAli氏は「CIOから利用料を減らすよう指示が出てきているだろう」として、他社製品とのコスト比較のベンチマークを紹介。それによると、エンタープライズの利用だと5分の1程度に費用を圧縮できるという。また、基調講演では「Databricks Lakehouse Platform」の機能追加も発表された。なお、同イベントにおける一部の講演はオンデマンドでも配信している。
主な追加機能
- Unity Catalog(データリネージ):データがどこから来て、いつ、誰が作成し、どのように変更され、どのように利用されているかなどを可視化
- Delta Sharing(Clean Rooms):プライバシーが守られたデータ共有環境
- Marketplace(Data Marketplace): データ資産(テーブル、ファイル、MLモデル、ダッシュボード)をパッケージ化して配布するためのオープンマーケットプレイス
- Data Warehousing(Serverless on AWS):Serverless Computeによる起動時間を50秒から2秒に短縮
- DLT ("Enzyme" Optimizer):実行の高速化とコスト削減を目的としたETLの最適化
- Streaming(Project Lightspeed): 次世代のSpark Structured Streamingをレイクハウスに設置
【関連記事】
・Databricks、Google Cloud上でレイクハウスの構築が可能に
・Qlik、Databricksとの戦略的パートナーシップを拡大 SQL Analyticsと統合
・中外製薬がクラウド基盤にSnowflakeを導入 データ環境整備でイノベーション加速を目指す