Agentforceを支えるData Cloud Vector Databaseはどう動くのか
Data Cloudが非構造化データに対応することで、Agentforceを支えるData Cloud Vector Databaseはどう動くのか。ムラリダール・クリシュナプラサド(Muralidhar Krishnaprasad)氏(Salesforce Einstein, Data, Tableau & MuleSoftプレジデント兼CTO)は、ベクトルデータベースを裏で支える「チャンキング」「エンリッチメント」「エンベディング」という3つを詳細に解説した。
チャンキングとは、データや情報を扱いやすい大きさ(チャンク)に分割することだ。文書であれば段落単位、音声や動画の場合は会話単位などに分割する。続いて、エンリッチメントでは、Q&Aや要約の追加、エンティティの抽出(人や組織の名前、場所、時間など、特定の意味を持つ情報を区別できるように抜き出すこと)などの手法を用いて情報を追加する。さらに、テキスト、音声、画像をベクトル表現に変換するエンベディングを利用し、AIエージェントが利用できる形式にデータを加工するという。
一連の処理を経て構築したベクトルインデックスを利用すると、プロンプトをより“魅力的”にカスタマイズすることも可能になる。非構造化データから必要な情報を取得するときに用いる、Retrievers機能も利用開始になった。この中には、セマンティック検索、データグラフの作成、キーワード検索とセマンティック検索を組み合わせた“ハイブリッド検索”が含まれる。この機能強化により、LLMの出力精度を高めるためのプロンプト拡張手法として知られるRAGを構造化データだけでなく、非構造化データにも適用可能になった。
また、セキュリティとデータガバナンスへの懸念も指摘されるが、Data CloudはEinstein Trust Layerをネイティブに組み込んだSalesforceプラットフォーム上に構築されているため、そもそもLLMがデータを保持することのない仕組みである。ここに新しく導入したのが、AIベースのタグ付け、分類とポリシーベースのアクセス制御の機能だ。この新機能を利用することで、テーブルの特定の列や行データに対して「機密データ」などのタグを付けて管理できる。たとえば、「財務データ」のタグを付けたとき、役職者以上だけにアクセスを許すような管理も容易に行えるという。
なお、次のリリースでは、こうした制御機能をテキストデータのチャンクレベルで適用する計画もあることが明かされた。