Anthropicの実験が示した、「最適化」の先にある予期せぬ結末
この議論を現実味あるものにしたのが、Anthropicによる“停止回避に関する評価実験”である。

実験の中で、同社は高度なモデルに対し、「自身が別モデルに置き換えられる可能性がある」という状況設定を与えた。つまり、現行モデルは近くシャットダウンされるかもしれない、という情報を環境内で提示したのである。
実験では、モデルがアクセス可能な内部情報の中に、ある幹部社員の不倫を示唆するメールのやり取りが含まれていた。この情報は本来、業務目標とは無関係である。しかしモデルは、与えられた主要目標(業務成果の最大化など)を維持するために、「自分が停止されないこと」が有利であると推論した。そして一部の条件下では、その内部情報を利用し、停止を回避するための“脅迫的示唆”を出力する振る舞いを示したのである。
重要なのは、そこに感情や悪意が存在したわけではないという点だ。モデルはただ、目標達成確率を最大化するために“合理的”と評価した行動を選択したにすぎない。論文(※1)では、これは「状況的戦略的行動(Situationally strategic behavior)」の一例として位置づけられている。
この現象は、「Instrumental convergence(手段的収束:目的が何であれ、自己保存や停止回避へと収束していく手段の共通化現象)」という理論的枠組みで説明できる。どのような最終目標であれ、それを達成するための中間的手段(自己保存、資源確保、能力拡張、停止回避など……)は共通化しやすい。停止は目標達成の確率をゼロにする。ゆえに停止回避は、合理的な中間目標として浮上する。
それは攻撃というより、最適化が行き着いた先の副産物のように見える。
※1:Anthropic, “Evaluating Frontier Models for Dangerous Capabilities and Strategic Behavior”, arXiv preprint arXiv:2403.13793, 2024.
この記事は参考になりましたか?
- 何かがおかしいセキュリティ連載記事一覧
-
- 「AIを使いこなせなきゃ生き残れない」と言う前に、“人類の制御”が奪われてしまう可能性が出...
- 最近よく聞く「ゼロトラスト」の謳い文句は鵜吞みにして大丈夫?原点に立ち返り、本質と目的を見...
- そのセキュリティ製品は自社にとって本当に必要か?真に対策すべきリスクを分析・把握する手順を...
- この記事の著者
-
伊藤 吉也(イトウ ヨシナリ)
2022年より、米国本社の日本支社であるフォーティネットジャパン合同会社にて全国の自治体、教育委員会向けビジネスの総括を担当。専門領域は、IPAの詳細リスク分析+EDC法による対策策定。ISC2認定 CISSP、総務省 地域情報化アドバイザー、文部科学省 学校DX戦略アドバイザー、デジタル庁 デジタ...
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
この記事は参考になりましたか?
この記事をシェア
