dotDataは、「dotData Feature Factory 1.3」を発表した。AIによる特徴量発見の強化、テキスト特徴量への対応、LLM(大規模言語モデル)のサポート強化などといった新機能により、AI、データサイエンス、機械学習チームを強化し、企業における高度な分析やデータ利活用を加速するとしている。
dotData Feature Factory 1.3の新機能
特徴量の段階的拡充
ユーザーがもつ既存の特徴量を補完し、また予測の残差にフィットする新たな特徴量を段階的に発見できる機能を提供。この新機能により、既存の特徴量や予測スコアといったアセットを最大限に活用し、冗長な特徴量の再発見を防ぎながら、予測精度の高い特徴量を反復的に構築することが可能になるという。
LLMによる組み合わせ特徴量の発見
LLMが複数のカラムの組み合わせ方を発見し、より予測精度の高い特徴量を生成できるようにするという。従来の統計に基づいた組み合わせの発見は、疑似相関が発生したり、 解釈が困難な組み合わせが多数発生したりといった問題があるとのことだ。dotDataは生成AIを活用し、統計的な有意性に加え、ドメインの文脈やカラムの組み合わせの解釈性も考慮しながら、特徴量を抽出できるとしている。
テキストデータの特徴量自動設計
NLP(自然言語処理)技術を活用し、売上レポート、顧客レビュー、コールセンターの通話記録、従業員インタビューなどの非構造化テキストから自動的に特徴量を抽出。また、抽出したテキスト特徴量を数値、カテゴリ、タイムスタンプデータと組み合わせることで、これまで埋もれていたインサイトを引き出し、より精度の高い分析を実現するという。
LLM対応の強化
dotData Feature Factory 1.3では、特徴量設計を強化するために、新たに2つのLLMフレームワークをサポートしたとのことだ。
- Amazon Bedrock:Claude 3.5をはじめとする最新のLLMにアクセス可能
- vLLM:特定のドメイン向けにファインチューニングされた独自のLLMを活用可能
幅広いデータサイエンス環境への対応
最新のデータサイエンス環境をサポートし、ユーザーが最新技術を最大限に活用できるようになったとしている。
- Python 3.11(Python 3.8はサポート終了)
- Databricks Runtime 14.3 および 15.4(Apache Spark 3.5.2対応)
- Amazon EMR 7.5.0
- Azure Snowpark Container Services
【関連記事】
・dotData、データ分析プラットフォームの機能を強化 データクレンジングやテーブル拡張で効率化へ
・インテックとdotData、金融機関のデータ利活用分野で協業 データの可視化と生成AIで業務効率化へ
・dotData、データサイエンス自動化プラットフォーム「dotData Enterprise」と「dotDataPy」に新バージョン