回答に100%の精度を求めすぎ? 生成AIの「品質」における3つの留意点
講演冒頭、大杉氏は自らが執筆した『テキスト生成AI利活用におけるリスクへの対策ガイドブック(α版)』(以下、ガイドブック)について紹介した。同ガイドブックでは、テキスト生成AIを活用する際のリスク対策について、“調達”を意識した工程ごとにまとめられている。同氏は、AI活用を本格的に考える際には「品質」「コスト」「スコープ」「その他」の4つの観点が重要だとし、それぞれの観点での留意点や軽減策を明かした。
まず「品質」については、3つの留意点があると大杉氏。1つ目は、「目標が高すぎる」ことだ。例として、「生成AIの解答に100%の精度を求めるユーザーが多い」と同氏は述べる。生成AIの精度評価は、数学的な定義や指標の選定、テストケースの範囲設定など、考慮すべき点が多い。これらは個々のユーザーが目指すものに依存するため、完全な自動評価の実現は難しいのだという。
「必ずしも100%の精度を求めずに、適切な利用法を考えるべきだ」と大杉氏は述べる。たとえば、ヘルプデスク業務の観点で言えば、業務をAIで完全に代替するのではなく、回答文の作成補助として活用することが有効だ。なお、この話題の詳細は、ガイドブック内の「2.1テキスト生成 AI の利活用が不適切であるケースにテキスト生成 AIを用いるリスク」「2.2テキスト生成 AI の利活用が効果的なケースを見落とすリスク」に記されている。
2つ目の留意点は、「基盤モデルのバージョンアップにともなうデグレード」だ。たとえば、ある基盤モデルのバージョンが廃止され、後継バージョンへのモデル移行が推奨されていても、すべてのケースで対応できるわけではない。自社プロジェクトでは、常に品質やパフォーマンスの低下(デグレード)のリスクが存在する。なお、オープンソースの基盤モデルを自社でホストする場合は、この問題は発生しにくい。
基盤モデルのバージョンアップによる影響を制御できない場合は、「軽減策として、デグレードが発生していないか判定する自動テストを導入し、評価できるようにすることが考えられる」と大杉氏。評価する方法として、バージョンアップ前のモデルが使用可能なうちに、A/Bテストを実施することを挙げた。詳細は、ガイドブックの「7.2テキスト生成AIを利用するためのWeb APIがクラウドサービスとして提供されるケースに関するリスクとその軽減策」にて述べられているとのことだ。
3つ目の留意点は、「基盤モデルにない知識を求めてしまう」こと。たとえば、最新のニュースや細かい法的知識を求めても、基盤モデルがそれらを学習していない場合がある。また、インターネット上に流布する、不正確な知識を学習してしまうケースも報告されているという。さらに、一般的でない社内用語や略称が使われる、社内での利用も課題のひとつだ。
この軽減策について、大杉氏は「基盤モデルの外側にデータベースなどを用意し、足りない知識の情報を基盤モデルへの入力部に含めるという、RAG(Retrieval-Augmented Generation)形式のやり方がある」と説明。なお、基盤モデル自体のファインチューニングは一般的に困難であるため、初期の利用においてはプロンプトに情報を書き込むという手軽なアプローチが推奨されるとした。この留意点は、「2.1テキスト生成 AI の利活用が不適切であるケースにテキスト生成 AIを用いるリスク」および「8 従来型の情報検索サービスをテキスト生成AIにより改善する手法」に詳しい。