攻撃がAI化するなら防御側も……アーキテクチャの再設計までは「三層構造」での制御を推奨
Mythosが突きつけた問題の本質は、「AIが賢くなりすぎた」ことではない。攻撃にかかるコストが劇的に下がった、いや、限りなくゼロに近づいてしまった点にある。かつては、熟練したハッカーが数週間から数ヵ月をかけて行っていた脆弱性の発見と攻撃実証を、Mythosは数時間でやり遂げる。しかも1つのシステムだけでなく、何千ものシステムを同時並行で標的にすることができる。
これが意味することは明確だ。人間の速度で脆弱性の発見と実証に対応していては、もはや間に合わない。攻撃が機械の速度(マシンスピード)でやって来るなら、防御側もマシンスピードで対抗するしかない。
先ほど述べたLLMの問題点を改めて整理すると、システムプロンプトをどれだけ工夫しても、パラメータをどれだけ調整しても、回避できない問題であることが言える。NVIDIAの研究者は、これを「制御プレーンとデータプレーンの非分離」と呼び、アーキテクチャ上の構造的問題だと指摘している(※5)。命令とデータが同じ器に入っている限り、内部制御だけでは境界を引けないのだ。

※5:NVIDIA AI Red Team, “Securing LLM Systems Against Prompt Injection”, NVIDIA Technical Blog, 2024.
根本解決のためには、命令とデータを分離するようLLMのアーキテクチャ自体を再設計するしかない。しかし、それは現行の構造を根底から作り直すことを意味し、すぐに実現できるものではない。
では、今の我々には何もできないのか……。そういうわけではない。アーキテクチャが再設計されるまでの間は、外部から構造的に制御するというアプローチが残された現実解となる。
この方向性について、Google DeepMindの研究チームが注目すべき提案を行っている。その考え方によれば、防御は3つの層で構成するのが良いという。第一層は「入力の監視」で、外部からの悪意ある命令をAIが受け取る前に検知・遮断する仕組みだ。第二層は「内部の行動監視」で、AIが何を処理し、何を出力しようとしているかをリアルタイムで把握する仕組みである。そして第三層は「出力の検査」で、AIが返す応答の中に機密情報や危険な内容が含まれていないかを出口で確認する仕組みだ(※7)。
※6 Edoardo Debenedetti, Ilia Shumailov, Tianqi Fan, Jamie Hayes, Nicholas Carlini, Daniel Fabian, Christoph Kern, Chongyang Shi, Andreas Terzis, and Florian Tramèr, “Defeating Prompt Injections by Design,” arXiv preprint arXiv:2503.18813, 2025.
※7:この仕組みは、プロンプトインジェクションに対してある一定の条件下で有効性が確認できた仕組みであり、Claude Mythosを防御できる仕組みであるという意味とは異なるのでご注意いただきたい。
この記事は参考になりましたか?
- 何かがおかしいセキュリティ連載記事一覧
-
- バズワード化する「Mythos」だが、本質を捉えられているか?セキュリティ判断を誤る前に理...
- 人類は本当にAIの制御を失ってしまうのか? 独自検証でリスクを分析、全員に考えてほしい間近...
- 「AIを使いこなせなきゃ生き残れない」と言う前に、“人類の制御”が奪われてしまう可能性が出...
- この記事の著者
-
伊藤 吉也(イトウ ヨシナリ)
2022年より、米国本社の日本支社であるフォーティネットジャパン合同会社にて全国の自治体、教育委員会向けビジネスの総括を担当。専門領域は、IPAの詳細リスク分析+EDC法による対策策定。ISC2認定 CISSP、総務省 地域情報化アドバイザー、文部科学省 学校DX戦略アドバイザー、デジタル庁 デジタ...
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
この記事は参考になりましたか?
この記事をシェア
