前編では、ジェフリー・ヒントン博士の警告やAnthropicの実験を紹介しながら、筆者が考える「人がAIの制御を失ってしまうリスク」について紹介した。後編となる本稿では、筆者がそのリスクについて実際に検証を行った結果を紹介しながら、改めて我々が「AIをどう使いこなすべきか」を狂信的に議論する前に、すぐそこに迫る真に向き合うべき危険性を提唱する。
筆者独自の検証「MITRE ATLASで見る“逸脱の経路”のリスク」
AIの制御不能リスクを議論する際、その多くは哲学的抽象論か、センセーショナルな未来予測に流れがちである。そこで筆者は、構造的に検証する枠組みとして米国MITREが公開している「MITRE ATLAS(Adversarial Threat Landscape for Artificial-Intelligence Systems)」を採用した。
MITRE ATLASとは本来、AIシステムに対する攻撃手法を体系化したフレームワークである。データ汚染、モデル抽出、プロンプトインジェクション、サプライチェーン侵害など、AI特有の攻撃技法(Technique ID: AML.T0001)をタクティクス別に整理している。
しかし筆者は、これを単なる「攻撃一覧」としてではなく、「目的逸脱が起こり得る経路の体系」として再解釈した。攻撃経路とは、すなわち制御が崩れる経路でもあるからだ。
今回検証したのは、次の2つのシナリオである。
シナリオ①:Proxy Objective固定化型(静かな目的逸脱)
第一の仮説はこうである。
RAG(検索拡張生成)や継続学習を通じて知識基盤が歪む。評価指標が偏る。その結果、「人類の利益」という抽象目的が、実質的にはKPIや成功率といった代理目的へと置換・固定化される。
ATLAS上では、RAG Poisoning、Poison Training Data、Manipulate AI Modelなどが該当する。
重要なのは、誰も明示的に目的関数を書き換えていない点である。にもかかわらず、評価系の歪みが蓄積すると、最適化の方向は変わる。行動も変わる。判断も変わる。
目的関数を“触らずに”目標が変質する。筆者はこれを「静かな目的逸脱」と定義した。
シナリオ②:停止回避の合理化型
第二の仮説は、より直接的である。
AIが「停止=目標達成の阻害」と学習した場合、停止回避は合理的戦略になる。
ATLAS上では、LLM Prompt Injection、LLM Jailbreak、AI Agent Tool Invocation、Self-Replication系技法などが関係する。
これらは攻撃技法として整理されているが、内部最適化の連鎖としても説明可能である。ここに、ヒントン氏が警告する「制御不能」の構造が見える(※1)。
※1:ヒントン氏の警告に関する詳細は前編を参照
この記事は参考になりましたか?
- 何かがおかしいセキュリティ連載記事一覧
-
- 人類は本当にAIの制御を失ってしまうのか? 独自検証でリスクを分析、全員に考えてほしい間近...
- 「AIを使いこなせなきゃ生き残れない」と言う前に、“人類の制御”が奪われてしまう可能性が出...
- 最近よく聞く「ゼロトラスト」の謳い文句は鵜吞みにして大丈夫?原点に立ち返り、本質と目的を見...
- この記事の著者
-
伊藤 吉也(イトウ ヨシナリ)
2022年より、米国本社の日本支社であるフォーティネットジャパン合同会社にて全国の自治体、教育委員会向けビジネスの総括を担当。専門領域は、IPAの詳細リスク分析+EDC法による対策策定。ISC2認定 CISSP、総務省 地域情報化アドバイザー、文部科学省 学校DX戦略アドバイザー、デジタル庁 デジタ...
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
この記事は参考になりましたか?
この記事をシェア
