RAGやファインチューニングの「落とし穴」とは
AIリスクへの対策は、“ルールでの統制”だけでは不十分です。これに加えて技術的な対策も講じていく必要があり、その技術も進化を続けている現状があります。
一例として、生成AIの基盤モデルを開発するような企業は、誤った回答の出力を防ぐために、異常な動作を検出・防止する「ガードレール機能」を持ったシステムを開発・実装しています。しかし、AIモデルがより高度なタスクに適用されるにつれ、そのリスクも複雑化しているため、リスク対策をガードレール機能だけに頼ることは危険でしょう。
特に、企業では特定のタスクに合わせて活用をする際に、RAGやファインチューニングされたAIモデルを利用することが一般的になりつつあります。これらは、特定のタスクに対してベースモデルよりも高い精度で動作する一方、過度に調整された結果として誤った出力を行うリスクも孕むもの。Robust Intelligenceが実施したAIリスクに関する研究[1]によると、ファインチューニングされたモデルは、同じベースモデルよりも予期せぬ有害な出力を生成するリスクが高いことが明らかになっています。
企業がこうしたAIリスクに適切に対処し、AIをより広範にビジネスに活用するためには、開発時にAIモデルのリスクを検証するだけではなく、運用時にも継続的なリスク検証を行い、その結果に基づいたリスク管理体制やプロセスを構築することが不可欠です。近年では、AIリスクを監視・管理するために、ホワイトハッカーが実際の攻撃者を模倣して企業に攻撃を仕掛けることで、その企業の弱点をあぶりだす「レッドチーミング」手法を取り入れる企業も増えています。他にも、AIモデルに潜むリスクや、悪意ある第三者の攻撃による機密情報の漏洩を防ぐための新しい技術的ソリューションなどが開発されつつあるのです。
先人が直面したインシデントに学び、AIリスクに備えよ
AI技術の活用は、今やどの企業にとっても避けられない課題です。AIがもたらす利益を享受するには、AIリスクを正しく認識し、それに対処するための準備が必要です。各企業は、PoCの段階からビジネスに本格活用する段階へと進むために、AIリスクを恐れず、それを適切にコントロールする力が求められているでしょう。既にAIに関して先進的な取り組みを行う企業では、AIリスクに対する先人たちの教訓を活かし、リスク管理の手法を進化させながらAI技術の活用を進めています。
リスクを管理しながらAI活用を進める企業の事例をいくつか見てみましょう。米国のある大手銀行では、CISO主導のもと、NISTやMITRE ATLASなどが提供するAIセキュリティ・フレームワークを用いて社内のAIポリシーを策定。そのポリシーに基づいた全社セキュリティ基盤にAIリスクを検証する仕組みを構築しました。国内でいえば、損保ジャパンは生成AIによる照会応答チャットボットを構築し、継続的なAIリスクの検証と対策を可能にする「AI Firewall」の導入に取り組んでいます。
今後も、この分野における技術的・法的な議論が各所で進み、様々なリスク管理の手法や法規制・ガイドラインの整備が進むことでしょう。企業はこの動向を注視し、最新のリスク管理策を把握し、必要に応じて導入することが重要です。
AIリスクを語るうえで外せないものが「ハルシネーション」や「プロンプトインジェクション」といった代表的なリスクです。このようなリスクは、その性質から「セキュリティリスク(AI security)」と「セーフティリスク(AI safety)」の2つのカテゴリに分けて検討することが肝心です。セキュリティリスクは、悪意ある第三者やユーザによる攻撃で情報漏洩やAIの悪用が行われるリスクを指し、プロンプトインジェクションがこれに含まれます。一方、セーフティリスクは、AIモデルが期待される品質を発揮できないリスクや、問題のあるアウトプットを意図せず出力してしまうリスクを指し、でたらめな回答をしてしまうハルシネーションがこれに該当します。
本連載では、それぞれのリスクに関する4つのケーススタディを取り上げ、企業が直面する可能性のあるリスクを具体的に解説していきます。この連載がAIリスクに対する理解を深め、ビジネスにおけるAIの安全な活用を推進する一助となることを願っています。
[1] 『LLMのファインチューニングにより安全性とセキュリティのアラインメントを損なう可能性が明らかに』(2024年5月30日、Robust Intelligence)
※執筆当時(2024年9月時点)の情報です