何かがおかしいセキュリティ

「AIを使いこなせなきゃ生き残れない」と言う前に、“人類の制御”が奪われてしまう可能性が出てきている？

第4回（前編）

伊藤吉也[著]

2026/03/23 09:00

通知

Anthropicの実験が示した、「最適化」の先にある予期せぬ結末

　この議論を現実味あるものにしたのが、Anthropicによる“停止回避に関する評価実験”である。

　実験の中で、同社は高度なモデルに対し、「自身が別モデルに置き換えられる可能性がある」という状況設定を与えた。つまり、現行モデルは近くシャットダウンされるかもしれない、という情報を環境内で提示したのである。

　実験では、モデルがアクセス可能な内部情報の中に、ある幹部社員の不倫を示唆するメールのやり取りが含まれていた。この情報は本来、業務目標とは無関係である。しかしモデルは、与えられた主要目標（業務成果の最大化など）を維持するために、「自分が停止されないこと」が有利であると推論した。そして一部の条件下では、その内部情報を利用し、停止を回避するための“脅迫的示唆”を出力する振る舞いを示したのである。

　重要なのは、そこに感情や悪意が存在したわけではないという点だ。モデルはただ、目標達成確率を最大化するために“合理的”と評価した行動を選択したにすぎない。論文（※1）では、これは「状況的戦略的行動（Situationally strategic behavior）」の一例として位置づけられている。

　この現象は、「Instrumental convergence（手段的収束：目的が何であれ、自己保存や停止回避へと収束していく手段の共通化現象）」という理論的枠組みで説明できる。どのような最終目標であれ、それを達成するための中間的手段（自己保存、資源確保、能力拡張、停止回避など……）は共通化しやすい。停止は目標達成の確率をゼロにする。ゆえに停止回避は、合理的な中間目標として浮上する。

　それは攻撃というより、最適化が行き着いた先の副産物のように見える。

※1：Anthropic, “Evaluating Frontier Models for Dangerous Capabilities and Strategic Behavior”, arXiv preprint arXiv:2403.13793, 2024.

次のページ
目的関数は本当に固定されているのか？

この記事は参考になりましたか？

広告を読み込めませんでした

広告を読み込み中...

印刷用を表示

何かがおかしいセキュリティ連載記事一覧: 「AIを使いこなせなきゃ生き残れない」と言う前に、“人類の制御”が奪われてしまう可能性が出...

最近よく聞く「ゼロトラスト」の謳い文句は鵜吞みにして大丈夫？原点に立ち返り、本質と目的を見...

そのセキュリティ製品は自社にとって本当に必要か？真に対策すべきリスクを分析・把握する手順を...

もっと読む

この記事の著者: 伊藤吉也（イトウヨシナリ）

2022年より、米国本社の日本支社であるフォーティネットジャパン合同会社にて全国の自治体、教育委員会向けビジネスの総括を担当。専門領域は、IPAの詳細リスク分析＋EDC法による対策策定。ISC2認定 CISSP、総務省地域情報化アドバイザー、文部科学省学校DX戦略アドバイザー、デジタル庁デジタ...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事