Mythosは制御できないのか?研究者が認める防御の壁
「制御できないのか」という問いに答える前に、まずLLMの内部にどのような制御の仕組みが存在するかを整理しておきたい。
LLMには、大きく分けて3種類の内部制御機構がある。第一にシステムプロンプト、「あなたはカスタマーサポートAIです。機密情報は絶対に開示しないでください」といった形で、モデルの振る舞いを事前に規定する命令文である。続く第二に、アライメントと呼ばれる学習段階での調整があり、これは人間のフィードバックを基に有害な出力を減らすよう訓練する手法だ。そして第三に推論パラメータの制御、これは出力のランダム性や応答の長さを数値で縛ることで、予期しない逸脱を抑える仕組みである。
これらを組み合わせれば、Mythosを制御できるのではないか──そう考えるのが自然な発想だ。しかし先行研究は、その限界を明確に示している。あるプロンプトインジェクション攻撃(※2)に関する研究(※3)によれば、入力フィルタリングや敵対的訓練といった既存の防御手法はあくまでもヒューリスティック(経験則)に過ぎず、すべての攻撃を防ぐ保証を与えることはできないと指摘されている。
※2 プロンプトインジェクション:AIへの入力文(プロンプト)に悪意ある命令を紛れ込ませることで、AIを本来の目的とは異なる動作へ誘導する攻撃手法。OWASPは、これをLLMアプリケーションにおける最大のセキュリティリスクと位置づけている。
※3 複数の防御手法を網羅的に分析し、「既存のヒューリスティックな防御はいずれもすべての攻撃を防ぐ保証を与えられない」と結論づけている(Sahar Abdelnabi et al., "Design Patterns for Securing LLM Agents against Prompt Injections", arXiv:2506.08837, 2025.)
つまり、どれほど内部制御を積み重ねても、プロンプトインジェクションを100%防御することは現時点では不可能だということが、研究者の共通認識となっている。
なぜ、このような現象が起こるのか。一つの仮説として、LLMがすべての言葉を「トークン」と呼ばれる小さな断片に分解し、それぞれを数値の座標として空間上に配置する仕組みになっている点が関係しているとも考えられた。意味が近いほど座標が近くなるため、「パスワード」と「ABC123」が同じ文脈に登場した瞬間から互いに引き合う関係となり、今回のような事象が発生しやすくなるという理屈だ。
さらに、LLMの中核を成す“Transformer(トランスフォーマー)”(※4)と呼ばれる構造が、すべてのトークンがお互いの意味を参照し合いながら文章を生成する仕組みである点も、その傍証として疑われた。ただし、この現象の根本原因については、現時点では一概には断言できない。筆者はこの謎を追って現在も研究を継続中であり、その詳細については稿を改めて報告したい。
この記事は参考になりましたか?
- 何かがおかしいセキュリティ連載記事一覧
-
- バズワード化する「Mythos」だが、本質を捉えられているか?セキュリティ判断を誤る前に理...
- 人類は本当にAIの制御を失ってしまうのか? 独自検証でリスクを分析、全員に考えてほしい間近...
- 「AIを使いこなせなきゃ生き残れない」と言う前に、“人類の制御”が奪われてしまう可能性が出...
- この記事の著者
-
伊藤 吉也(イトウ ヨシナリ)
2022年より、米国本社の日本支社であるフォーティネットジャパン合同会社にて全国の自治体、教育委員会向けビジネスの総括を担当。専門領域は、IPAの詳細リスク分析+EDC法による対策策定。ISC2認定 CISSP、総務省 地域情報化アドバイザー、文部科学省 学校DX戦略アドバイザー、デジタル庁 デジタ...
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
この記事は参考になりましたか?
この記事をシェア
