バズワード化する「Mythos」だが、本質を捉えられているか？セキュリティ判断を誤る前に理解すべきこと

第5回

2026/07/03 10:00

通知

Mythosは制御できないのか？研究者が認める防御の壁

　「制御できないのか」という問いに答える前に、まずLLMの内部にどのような制御の仕組みが存在するかを整理しておきたい。

　LLMには、大きく分けて3種類の内部制御機構がある。第一にシステムプロンプト、「あなたはカスタマーサポートAIです。機密情報は絶対に開示しないでください」といった形で、モデルの振る舞いを事前に規定する命令文である。続く第二に、アライメントと呼ばれる学習段階での調整があり、これは人間のフィードバックを基に有害な出力を減らすよう訓練する手法だ。そして第三に推論パラメータの制御、これは出力のランダム性や応答の長さを数値で縛ることで、予期しない逸脱を抑える仕組みである。

　これらを組み合わせれば、Mythosを制御できるのではないか──そう考えるのが自然な発想だ。しかし先行研究は、その限界を明確に示している。あるプロンプトインジェクション攻撃（※2）に関する研究（※3）によれば、入力フィルタリングや敵対的訓練といった既存の防御手法はあくまでもヒューリスティック（経験則）に過ぎず、すべての攻撃を防ぐ保証を与えることはできないと指摘されている。

※2 プロンプトインジェクション：AIへの入力文（プロンプト）に悪意ある命令を紛れ込ませることで、AIを本来の目的とは異なる動作へ誘導する攻撃手法。OWASPは、これをLLMアプリケーションにおける最大のセキュリティリスクと位置づけている。

※3 複数の防御手法を網羅的に分析し、「既存のヒューリスティックな防御はいずれもすべての攻撃を防ぐ保証を与えられない」と結論づけている（Sahar Abdelnabi et al., "Design Patterns for Securing LLM Agents against Prompt Injections", arXiv:2506.08837, 2025.）

　つまり、どれほど内部制御を積み重ねても、プロンプトインジェクションを100％防御することは現時点では不可能だということが、研究者の共通認識となっている。

　なぜ、このような現象が起こるのか。一つの仮説として、LLMがすべての言葉を「トークン」と呼ばれる小さな断片に分解し、それぞれを数値の座標として空間上に配置する仕組みになっている点が関係しているとも考えられた。意味が近いほど座標が近くなるため、「パスワード」と「ABC123」が同じ文脈に登場した瞬間から互いに引き合う関係となり、今回のような事象が発生しやすくなるという理屈だ。

さらに、LLMの中核を成す“Transformer（トランスフォーマー）”（※4）と呼ばれる構造が、すべてのトークンがお互いの意味を参照し合いながら文章を生成する仕組みである点も、その傍証として疑われた。ただし、この現象の根本原因については、現時点では一概には断言できない。筆者はこの謎を追って現在も研究を継続中であり、その詳細については稿を改めて報告したい。

※4 Transformer：2017年にGoogleが発表した論文『Attention is All You Need』で提案されたニューラルネットワークの構造で、現在のほぼすべての主要LLMの基盤となっている。最大の特徴は「注意機構（Attention）」と呼ばれる仕組みで、文章中のすべての単語が互いの関係を参照しながら意味を解釈する。たとえば「彼女はそれを拾った」という文において、「それ」が何を指すかを文全体の文脈から判断できる。この仕組みにより、離れた位置にある情報同士の関係を捉える能力が飛躍的に向上し、長い論理の連鎖を追うことが可能になった。

次のページ
攻撃がAI化するなら防御側も……アーキテクチャの再設計までは「三層構造」での制御を推奨

この記事は参考になりましたか？

広告を読み込めませんでした

広告を読み込み中...

印刷用を表示

何かがおかしいセキュリティ連載記事一覧: バズワード化する「Mythos」だが、本質を捉えられているか？セキュリティ判断を誤る前に理...

人類は本当にAIの制御を失ってしまうのか？独自検証でリスクを分析、全員に考えてほしい間近...

「AIを使いこなせなきゃ生き残れない」と言う前に、“人類の制御”が奪われてしまう可能性が出...

もっと読む

この記事の著者: 伊藤吉也（イトウヨシナリ）

2022年より、米国本社の日本支社であるフォーティネットジャパン合同会社にて全国の自治体、教育委員会向けビジネスの総括を担当。専門領域は、IPAの詳細リスク分析＋EDC法による対策策定。ISC2認定 CISSP、総務省地域情報化アドバイザー、文部科学省学校DX戦略アドバイザー、デジタル庁デジタ...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事