Databricks導入でアドホック分析の利用を促進
Databricksを活用する具体的なユースケースは、AIを活用した新サービス開発、LLM活用システムのプロトタイプ開発、Amazon EMRベースで構成された既存MLシステムの置き換えなどがあるという。これらは、アナリティクスソリューション事業部がサポートする形で各事業部と伴走して進めているものもあれば、事業部門などが独自に進め問い合わせに答えるようなサポートだけで進められているものもある。
LLMにチャットで質問し回答を得るなどであれば、汎用的なLLMの利用で事足りる。一方でコンパウンドAIのように複数のLLMを使う、あるいはエンベディングモデルやLLMのファインチューニングで個別目的に適用できるようにするケースもある。「そのような場合はDatabricksのような基盤が必要になる」と話すのは、データ&アナリティクスソリューション本部 アナリティクスソリューション事業部 アソシエイトデータアナリストの竹原孝祐氏だ。
様々なAIやLLMを使おうとすると、周辺の様々な要素も必要だ。Databricksには、AIを活用するのに必要なランタイムがすべて備わっている。さらに、ローカルで学習したいときに、GPUインスタンスが必要だが、すぐに調達でき必要なタイミングに立ち上げて利用できる。これはGPUコストの最適化にもつながる。
DatabricksはAIを活用する際に「非常に使い勝手が良いです。私が特に気に入っているのはMLflowです」と竹原氏。DatabricksのManaged MLflowは、優れたモデルを作りそれで生成AIアプリケーションを構築するためのオープンソースプラットフォームのMLflowの機能を拡張したものだ。「デフォルトで必要な機能を連結させて使え、AIの仕組みを活用し開発していく上では、非常に有益な機能です」ともいう。
またAIを活用するアプリケーションの開発は、一人でやるものではない。コード資産などを共有しながら進められるのも、Databricksのプラットフォームとしての魅力となる。
Amazon EMRベースで構成されたMLOpsの環境を、Databricksに置き換えるケースも出てきている。クラウド上でマイクロサービスを組み合わせて作り込めば良いMLOps環境はできるが、運用するのには手間がかかる。専任部隊が運用すれば上手く回るが、データ分析を主体にしたいメンバーや事業部門がやるのは現実的ではない。
これをDatabricksに置き換えれば「一つのチームでまとまり、見通しが良くなり、ワークフローも使いやすく、ログなども非常に見やすいです。Sparkのメトリクスなども簡単に把握でき、非常に使いやすいです」と竹原氏は評価する。また、Databricksの場合は、チューニングを施さなくても、極めて高速。速いということは、トータルコストを削減する上でもメリットがある。
AIやMLだけでなく、アドホック分析でもDatabricksを使っている。家電機器のログにアプリケーションログを掛け合わせる、または家電のログと品質情報を合わせて分析するような際に、各種データの置き場所が異なることがある。そのような際に、Databricksのレイクハウスでデータミックスを行う、Unity Catalogを用いてユーザーやデータへのアクセスを一元的に管理できる。「利用者はどこにどのデータがあるかを意識せずに、必要なデータを取得し、必要に応じて承認をして分析できます」と竹原氏。これも極めて便利だという。