長い履歴はなぜ劣化するのか
では、なぜ「長いコンテキストを渡せばよい」という発想では足りないのでしょうか。理由は、長い履歴は伸びるほど汚れていくからです。Drew Breunigは2025年、この失敗を整理する実務的な枠組みとして、Context Poisoning、Context Distraction、Context Confusion、Context Clashという4つの類型を提示しました(https://www.dbreunig.com/2025/06/22/how-contexts-fail-and-how-to-fix-them.html)。これは査読論文の標準用語ではありませんが、長時間動くAIエージェントの失敗を説明するには非常に分かりやすい整理です。さらに2026年のLOCA-benchでは、文脈が伸びるほどエージェントの信頼性が落ちる現象を「Context-Rot」と呼んでおり、長文化そのものが新しい課題領域になっていることが分かります(https://arxiv.org/abs/2602.07962)。
Context Poisoningは、誤りや幻覚がいったん履歴に入り込み、その後の推論で何度も参照されてしまう状態です。たとえば、エージェントが最初に誤った要約を作り、その要約を次の計画立案でも使ってしまうと、一度の誤りが継続的な誤作動へ変わります。Context Distractionは、履歴が長くなりすぎた結果、モデルが本来重視すべき最新の目的や重要制約より、蓄積された過去の文脈に引っ張られる状態です。Context Confusionは、関係の薄い情報まで一緒に渡されることで、モデルがノイズを意味のある文脈だと誤認し、回答品質を落とす状態を指します。さらにContext Clashは、古い仕様と新しい仕様、原則ルールと例外運用のように、矛盾する前提が同じ履歴に残り続けることで、推論の土台そのものが衝突してしまう状態です。
この問題は、単なる感覚論ではありません。長文コンテキスト研究の代表例である「Lost in the Middle」は、重要情報が入力の中央にあるときに性能が大きく落ちることを示しました(https://arxiv.org/abs/2307.03172)。つまり、モデルは長い入力を受け付けられても、その中の重要情報を均等に使いこなせるわけではありません。先頭や末尾にある情報には比較的反応できても、中ほどに埋もれた情報は取りこぼしやすいのです。社内規程、設計資料、過去ログ、ツール出力を全部入れれば精度が上がるように見えて、実際には重要な但し書きや最新合意が埋もれてしまう。現場でしばしば起きるのは、まさにこの現象です。
さらに2025年のChromaの技術レポート「Context Rot」では、入力長が伸びる条件では、多くの設定で性能低下や不安定化が観測され、特にdistractorの影響が大きくなることが示されています(https://research.trychroma.com/context-rot)。情報量が増えれば賢くなるのではなく、紛らわしい情報が増えるほど判断が鈍る、ということです。Anthropicも、コンテキストは有限資源であり、トークンを増やすほど注意資源が薄まると説明しています(https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents)。長い履歴は豊かさではなく、管理対象なのです。
この記事は参考になりましたか?
- この記事の著者
-
小川 航平(オガワ コウヘイ)
日本オラクル株式会社 Principal AI Data Software Solution Developer。データ分析基盤と生成AI領域を中心に、構想段階の課題を技術要件へ落とし込み、プロトタイピングから実装、導入までを横断して担う。OCIのAI Agent、AI Database、Mult...
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
この記事は参考になりましたか?
この記事をシェア
