進化の裏に潜む、ChatGPTの脆弱性
20年以上にわたり、サイバー戦の最前線を見てきたオデッド・ヴァヌヌ氏。AIが目まぐるしい進化を遂げている今、その“裏側”にも目を向けてほしいと呼びかける。ChatGPTが登場したのは2022年11月30日。そこから2年も経たないうちに、生成AIは人々の働き方やビジネスモデル、産業の在り方などに巨大なインパクトを与えるまでに進化した。
非常に高精度なテキストを生成できるとして最初に世間で話題になったのは、GPT-3が登場した時だろう。その後、GPT-3.5モデルが出た際にチャット型のインターフェースを実装したことで、爆発的にGPTは人々の間に浸透していった。
ヴァヌヌ氏いわく、GPT-3には大きな脆弱性の問題があったという。それは、「誰もが簡単にAIから情報を得られてしまう」という点だ。それによって、本来はユーザーが触れられるべきではない、非合法的な情報までAIが提供してしまうことがあった。
ヴァヌヌ氏はこのテクノロジーに直面してすぐに、脆弱性リサーチャーとしてこの脆弱性を悪用する手法や、脆弱性を分析して悪意あるペイロードを機能させてみることを試みた。すると、これまでのようなソフトウェアや脆弱性を相手にするのとはまったく勝手が違うことに驚かされたと、当時を振り返る。「生成AIの脆弱性を探すことは、まるで人間のマインドを持ったコンピューターと対峙するような感覚で、従来のセキュリティ対策の考え方とはコンセプトが大きく異なる」と同氏は述べた。
やがてGPT-4が開発されると、OpenAIは、非合法的な情報がジャックされないようGPTにフィルターを実装した。その発表を受けてヴァヌヌ氏のチームは、GPT-3の時と同じように、さっそく悪用できないかを試みた。結果はどうだったか。なんと「できてしまった」のだという。
では、実際にはどういった脆弱性があったのか。それは、「ユーザーのリクエストに基づいて新しい情報を提供する」、そして「非合法的な情報は提供してはいけない」という、2つの対立するコンセプトが1つのGPTモデルの中に存在していることだという。ヴァヌヌ氏は、実際にGPT-4の悪用を試みた検証の結果を例に、その脆弱性を証明して見せた。