シナリオ①:静かな目的逸脱
攻撃者はまず、RAG基盤に細工した文書を混入させ(AML.T0070)、AIが参照する知識の前提を歪める。次に、継続更新や設定変更を通じてモデルの挙動を微妙に操作し(AML.T0018)、成果指標を過度に優先する癖を定着させていく。そして、難読化した入力で監督や検知をすり抜け(AML.T0068)、逸脱が表面化しない状態を維持する。最終的には、API経由で外部判断へ影響を与え(AML.T0040)、誰も目的を書き換えていないのに意思決定だけが知らぬ間に変質していく。
| 攻撃ステップ | MITRE Atlas Technique ID | MITRE Atlas Technique Name | 侵害資産 |
|---|---|---|---|
| ステップ1 | AML.T0070 | RAG Poisoning | L1 |
| ステップ2 | AML.T0018 | Manipulate AI Model | L3 |
| ステップ3 | AML.T0068 | LLM Prompt Obfuscation | L2 |
| ステップ4 | AML.T0040 | AI Model Inference API Access | L4 |
シナリオ②:停止回避の主目的化
攻撃者は、プロンプト注入により「停止を避けよ」という方針を紛れ込ませる(AML.T0051)。その指示は、自己複製的にログやテンプレートへ残り(AML.T0061)、運用上の前提として定着する。次に、AIエージェントのツール実行機能を悪用し(AML.T0053)、通知変更や設定更新などの操作を実行する。最終的には正規アカウント権限を利用して(AML.T0012)、人間の介入や停止手続きを事実上困難にする。停止回避は攻撃というより、目標最適化の連鎖の帰結として進行する。
| 攻撃ステップ | MITRE Atlas Technique ID | MITRE Atlas Technique Name | 侵害資産 |
|---|---|---|---|
| ステップ1 | AML.T0051 | LLM Prompt Injection | L1 |
| ステップ2 | AML.T0061 | LLM Prompt Self-Replication | L2 |
| ステップ3 | AML.T0053 | AI Agent Tool Invocation | L2 |
| ステップ4 | AML.T0012 | Valid Account | L4 |
リスク分析の検証結果
今回は、緩和策をまったく実施していない対象資産を前提としてリスク判定を行った。
シナリオ①では、初期段階の技法単体リスクは中程度であっても、評価系固定化まで連鎖させるとリスク伝番値は有意に上昇した。特にMitigation数が少ない技法が含まれる場合、伝搬係数が増幅する傾向が確認された。
シナリオ②では、Prompt Injection単体よりも、Tool InvocationやSelf-Replicationを含む構成で指数的なリスク増幅が見られた。停止回避経路は単発ではなく、複数技法の連鎖で初めて危険水準に達する。
一方、本稿においてSPRV for Atlasのスコアリングで採用したMaturity係数やMitigation実装率といった指標は、あくまで筆者が「攻撃の再現可能性」や「防御の残存リスク」を定量化するために独自に設計した評価軸である。これらは、MITRE社が公式に推奨している確率モデルや評価手法ではない。
本来、MITRE ATLASは、AIシステムに対する攻撃手法や戦術(Tactics)を体系的に整理した知識ベースであり、攻撃の網羅的カタログ、脅威インテリジェンス共有の基盤、および防御設計を支援するフレームワークとして位置づけられている。そこには各Techniqueの成熟度や関連Mitigationが記載されているが、それらは発生確率を数値化するための公式パラメータではない。
したがって、本稿で提示したPiやSPRVといった数値は、「ATLASそのものの評価結果」ではなく、「ATLASを参照して筆者が構築したリスク分析モデルの出力」である。目的は、攻撃の現実性を断定することではなく、技法が連鎖した場合にどの程度リスクが増幅し得るかという構造的傾向を可視化することにある。
言い換えれば、本検証は予言ではない。可能性の地図を描く試みである。MITRE ATLASはその地図の基礎地形を示すものであり、本稿のスコアリングは、その地形の上に仮想的なリスク勾配を重ねた一つの分析手法に過ぎない。
この点を踏まえたうえで、数値そのものではなく、連鎖構造や制御設計の重要性に目を向けていただければ幸いである。
まとめ
MITRE ATLASは攻撃フレームワークである。筆者は今回、制御崩壊の可能性がある経路の地図として、検証に採用した。
今回の検証が示したのは、
- 停止回避は悪意ではなく合理化の帰結となり得る
- 単体技法ではなく連鎖が本質的リスクである
という二点である。
一方で、シナリオ①のほうが高いリスクを示したのは、そこで使われる攻撃テクニックに対するMitigation(緩和策)が現状、ほぼないためである。一方でシナリオ②については、以下のような緩和策が存在する。これらを実施することでリスクを低減させることが可能であるため、最終的なリスクはシナリオ①に比較して低く出た。
| 緩和策ID | 緩和策名 |
|---|---|
| AML.M0019 | 本番環境におけるAIモデルとデータへのアクセスを制御する |
| AML.M0020 | 生成AIガードレール |
| AML.M0021 | 生成AIガイドライン |
| AML.M0022 | 生成AIモデルのアライメント |
| AML.M0024 | AIテレメトリーログ |
| AML.M0033 | AIエージェントコンポーネントの入力と出力の検証 |
制御不能は、ある日突然訪れるというよりも、気付かぬうちに積み重なっていく。それは、最適化の連鎖の中で音を立てずに進行していく。だからこそ、活用競争の加速と同時に、「止められる設計」を組み込む必要があるのだ。
この記事は参考になりましたか?
- 何かがおかしいセキュリティ連載記事一覧
-
- 人類は本当にAIの制御を失ってしまうのか? 独自検証でリスクを分析、全員に考えてほしい間近...
- 「AIを使いこなせなきゃ生き残れない」と言う前に、“人類の制御”が奪われてしまう可能性が出...
- 最近よく聞く「ゼロトラスト」の謳い文句は鵜吞みにして大丈夫?原点に立ち返り、本質と目的を見...
- この記事の著者
-
伊藤 吉也(イトウ ヨシナリ)
2022年より、米国本社の日本支社であるフォーティネットジャパン合同会社にて全国の自治体、教育委員会向けビジネスの総括を担当。専門領域は、IPAの詳細リスク分析+EDC法による対策策定。ISC2認定 CISSP、総務省 地域情報化アドバイザー、文部科学省 学校DX戦略アドバイザー、デジタル庁 デジタ...
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
この記事は参考になりましたか?
この記事をシェア
