分析者とドメイン知識をもつ専門家が協働できるプラットフォーム
Databricksを使った、家電製品の判別ロジック開発の例がある。パナソニックでは、ユーザーから許諾を得て収集したIoT家電のデータから、家電の状況を判別するロジックを開発し、サービスに活用している。その一例として、Databricksを使った判別ロジック開発がある。
Databricksは、コードベースの分析ができる分析者から利用が進んでいる。分析者は、ドメイン知識を持つ専門家と協働し、コードを用いた分析を行うことで、AIの適用範囲を徐々に拡大している。
数万台規模の家電製品からIoTで数分、数十分間隔でデータを取得するため、データ量は膨大になる。このようなビッグデータを使い機械学習モデルを作成するには、処理性能など様々な課題を解決する必要がある。たとえば、判別ロジックの精度を向上させるためには、サンプリングではなく、季節変動などを考慮した全期間の全データを使用する必要がある。このような膨大なデータの分析には、分散並列処理が不可欠だ。
ロジック開発では膨大なデータを使用するが、開発後の推論処理では、必ずしもすべてのデータが必要なわけではない。多くの場合、最小限のデータで推論を行い、コスト最適化のために本番処理は非分散環境で実施する。
従来、膨大なデータを使うロジック開発と本番の推論では、コードの書き換えと検証が必要で、手間がかかっていた。Databricksでは「pandas function APIs」を用いたコード共通化が可能になるため、開発から本番へのコード変換作業が不要となり、作業工数・所要時間を30%削減している。
また、判別ロジック開発をする際は、知見を蓄積する必要があり、ここにも課題がある。判別ロジック開発では、状況に応じたデータのパターンを把握し、専門家が知見に基づいて調整する必要がある。しかし、従来はこれらの知見が散在してしまう課題があった。Databricksをプラットフォームとして活用することで、この課題を解決している。
たとえば、家電の判別ロジック開発では、データのパターンに対して正解ラベルを機械的に付与することはできない。専門家がデータを見てアノテーションラベルを付けていく必要があり、専門家は多忙で多くの分析パターンのデータを収集することは困難だ。また、同じ傾向を示すサンプルを集めても、ロジックの改善には必ずしもつながらない。
そこで、Databricksの機械学習の予測結果を活用し、未知のデータモデルやロジック開発に役立つ有益なデータを選択するアプローチを採用している。具体的には、DatabricksのMLflowの機能を使い、ロジック改善に必要なデータを選択的に抽出し、効率的にアノテーションを付与する。
パナソニックでは、Databricksを分析プラットフォームとして提供することで、グループ全体のデータ、AIの民主化を推進している。分析者と専門家が協働し、効率良くロジックの改善と知見蓄積ができるプラットフォームを構築した。竹原氏は、今後の展望として、GenieやLLMを使った自然言語での分析を可能にすることで、すべての職能の人がDatabricksを活用してAIの恩恵を受けられるようにしたいと述べた。