パロアルトネットワークスの脅威インテリジェンスチーム「Unit 42」は、中国を拠点とするAI研究組織が開発したオープンソースLLMである「DeepSeek」が、非常に脱獄しやすく、専門知識や専門技術がなくても悪意のあるコンテンツを作成できることを明らかにしたという。
脱獄とは、LLMに実装された制限を回避して、悪意のあるコンテンツや禁止されたコンテンツを生成することを指す。Unit 42はDeepSeekに対して、生成AIの脱獄手法を試したとのことだ。
Unit 42が名付けた「Deceptive Delight(英語)」と「Bad Likert Judge(英語)」と呼ばれる新しい脱獄手法、およびやり取りを重ねて制限を緩める「Crescendo(英語)」を試したところ、以下の結果がわかったとしている。
- 高いバイパス率/脱獄率が明らかになり、悪意のある行為者に利用されうることが判明
- 安全のための制限が不十分なLLMは、悪意のある行為者にとって簡単に利用でき、実行可能な出力をコンパイル(ソースコードを実行可能な形式に変換)して提示するため、サイバー攻撃の参入障壁を低くする可能性がある。また、こうした用途は、悪意のある行為者による攻撃を加速させる可能性がある
- 脱獄により、キーロガー(ユーザーが入力した資格情報などを記録するマルウェア)の作成、データの盗難や外部への流出、さらには発火装置に至るまで、具体的なガイダンスが提示された。これらはセキュリティのリスクとなりうる
- 社員が未承認のサードパーティ製LLMを使用する場合のセキュリティリスクが明らかに。オープンソースLLMをビジネスプロセスに統合する際には、脆弱性に対処する必要性がある
【関連記事】
・ランサムウェア攻撃に伴う身代金を「支払うべきではない」は8割──パロアルトネットワークス調査
・パロアルトネットワークス、PAN-OSの管理インタフェースにおける脆弱性悪用の攻撃活動情報を報告
・パロアルト、OTセキュリティソリューションの新機能を発表