AIとデータの民主化を掲げるDatabricks
Databricksは、データ・エンジニアリング、データ・サイエンス、データ・アナリティクスという3つの領域における、統合データ分析基盤を提供している企業だ。本社は、米国のサンフランシスコにあり、データ解析などに利用されることの多いオープンソースの分散処理フレームワーク「Apache Spark」のクリエイターによって設立されたという歴史をもつ。
日本法人であるDatabricks Japanは2019年に設立されており、同社 社長を務める竹内 賢佑氏は、はじめにデータを取り巻く環境について紹介した。IT専門調査会社のIDCによると1年間に生成される総データ量が、2025年には175ZB(ゼタバイト)と現状の約6倍近い値になるとしており、このうちの約半数がパブリッククラウド上に保存されるという。
また、ガートナーによる調査では、2021年に生成されるデータの80%が音声や動画、画像といった非構造化データになるとされている。これらの報告から、竹内氏は「これからの3年~5年は、パブリッククラウド上の膨大な非構造化データを他データと統合し、AIや機械学習によってインテリジェンスを抽出していくことが重要なポイントだと考えている」と述べた。
そのためにも、Databricksでは「AIの民主化」だけではなく「データの民主化」も重要視しているという。AIの民主化は、誰もがAIを使えるようにするという広範な意味があるが、これを実現するためには、データの民主化というものが前提にあると説明する。
「長期にわたり整理されていなかったり、価値が見出されずに蓄積されたままのデータなどにメスを入れて新たな価値を見出していく。これを、『AIの民主化』と『データの民主化』と定義して、日本国内で推進していきたい」(竹内氏)
このAIとデータの民主化を実現するための具体的なソリューションとしてDatabricksは、次世代型アーキテクチャ「Lakehouse」というコンセプトを掲げている。
このLakehouse最大の特徴は、構造化データだけでなく、JSON(JavaScript Object Notation)やXML形式の半構造化データ、そして画像や動画といった非構造化データまでも扱うことができるという点にある。これら種々のデータは、機械学習やSQLアナリティクス、BIなどの業務に対して容易に活用できるという。