モデルトレーニングの問題解決をサポートする、エンタープライズフィーチャーストア
米ランド研究所が2024年8月に発表したレポート『The Root Causes of Failure for Artificial Intelligence Projects and How They Can Succeed』(PDF)によれば、AI/MLプロジェクトの80%以上が失敗している。また、レポートにおいてプロジェクトの失敗には、
- 解決したい問題についての誤解やコミュニケーションの失敗
- モデルトレーニングのためのデータの不足
- 最新かつ最高のテクノロジーの活用を目的化
- モデルのデプロイや運用のためのインフラの不全
- 解決困難な難しい問題へのAI/MLの適用
という5つの根本的原因があるとも指摘されている。ウィルコックス氏はこの結果を引用し、テラデータとしての解決アプローチを解説した。
順番は前後するが、「2. モデルトレーニングのためのデータの不足」へのアプローチから触れられた。この指摘が示唆するのは、企業が抱えるデータ資産の量と品質の問題だ。これに対して、ウィルコックス氏は「AI/ML対応のデータ基盤の構築がプロジェクトで成功する鍵を握る。『データを適切に取得できない』ことは、データアーキテクチャーの問題だ。多くの組織が『モデル単位のAI/MLパイプライン構築』を採用していることが問題だ」と指摘した。このやり方は、同じデータをキャプチャーし、類似した特徴量を作成し、類似したモデルのトレーニングを繰り返すことになる。その結果、データのサイロ化が進み、技術的負債の増加につながってしまう。
解決策としてウィルコックス氏が示したのは、「エンタープライズフィーチャーストア」だ。AI/MLにおける特徴量(フィーチャー)とは、モデルに予測や推論を行う方法を教えるために与えるデータセットのことで、エンタープライズフィーチャーストアを使うと、複数モデルにまたがって“特徴量の再利用”が容易になる。結果、データサイエンティストの生産性向上、AI/MLから価値を得るまでの時間を短縮できるという。
フィーチャーストア(Feature Store)の構築では、複数のテクノロジーを導入することが多く、かえってAI/MLのライフサイクルに複雑性とコストの増加をもたらす懸念がある。これを避けるためテラデータでは、データの探索から特徴量エンジニアリング、モデルトレーニング、モデルスコアリングまでのライフサイクル全体を既存のアナリティクスプラットフォームと同じ環境で行えるようにした。
既に実績も出てきたという。たとえば、ある金融機関では、特徴量エンジニアリングの機能を利用し、規制対応プロセスを効率化。複数の子会社から送られてくる「規制報告のためのデータ」の品質が低いことに悩まされていた。送られてくるデータに異常なものが含まれていた場合、Teradata Vantage上で動作するAIが自動的に検知する仕組みを構築したところ、規制当局への毎月の報告業務にかかる時間短縮と負担軽減に成功している。