ハルシネーションのリスクを抑える4つの技術的施策
ここからはハルシネーションへの具体的な対策を検討していきましょう。これまでの議論をまとめると、ハルシネーションへの完全な解決策が存在しない場合には、多角的な視点から直接的・間接的な施策を組み合わせ、リスクを効果的にコントロールすることが重要といえます。まずは技術的観点から具体策を考えていきます。
技術的な対策
1. 公開評価などを利用したLLMの選定
そもそもLLMを選択する段階で、目的に合わせて品質の高いモデルを選択する必要があります。LLMの日本語能力を比較できるサイト「Nejumi LLMリーダーボード」などの公開評価システムを参照し、品質の高いモデルを選定しましょう。
2. RAGの活用
RAG(Retrieval-Augmented Generation)は検索拡張生成とよばれる技術で、ハルシネーションなどの事実の誤りを減らし、LLMの品質を向上させる手法として注目されています。多くのケースでは、下図のように埋め込みモデルを利用してユーザークエリを埋め込み、自社の資料などを蓄積した外部情報データベースから関連する情報を検索します。そして、ユーザーの質問と外部情報データベースから取得された情報をLLMに入力することで、統合された一つの回答を出力し、正確な回答を実現させることができます。
3. 開発・運用時のテスト
RAGは一般的にハルシネーション抑制の有効性も認められ、多くの企業が活用する手法ではありますが、外部情報データベースやクエリ発行の過程には事実の誤りが残る可能性が依然として存在します。そこで、開発時に自社ルールに基づいた内容の正確性を問うような「正常系テスト」や、競合他社の情報などの回答してはならない内容を問うなどの「異常系テスト」を、検証ツールなどを用いて実行します。リスクが発見された場合には、モデルの再選択、RAGからの事実取得の改善、システムプロンプトの改善などの対応を行う必要があるでしょう。
4. ガードレール機能の適用
AIは入力に対して出力を推論する技術であることから、極端にいえば、新しい入力に対してどういった出力が出るかは予測できません。生成AIは入力値が自然言語であるため、質問(入力)の意図が同じでも、言葉の選び方や“てにをは”などの文法、カタカナと平仮名の選択によって回答(出力)が変わる可能性があります。言い換えると、生成AIのリスクは質的にも量的にも無限大になるということです。そのため、自社のサービスやアプリケーションを一定のリスク評価で改善したその先も継続的な検証が必須です。具体的には、ガードレールと呼ばれるリスク検知機能やモニタリング環境を構築していく必要があります。