なぜAIは本番で“崩れる”のか？「コンテキスト劣化の罠」を乗り越えるための「記憶設計」

【第一回】メモリエンジニアリング

2026/04/06 09:00

通知

　AIエージェントはなぜ本番業務で失速するのか。その根本には「記憶の設計不足」があります。本連載では、メモリエンジニアリングの基礎から実装・運用まで、エンタープライズAI導入の現場で通用する設計論を全6回にわたり解説します。生成AIは、過去の会話を覚えているように見えます。しかし実際には、LLMは人間のような記憶を自然には持っていません。企業でAIエージェント活用が進む中、この“覚えているように見えるだけ”という性質が、本番運用での継続性不足や品質劣化の原因になります。本稿では、AIが「忘れる」とはどういうことかを整理し、次回扱うメモリエンジニアリングの必要性へつなげます。

通知

LLMは記憶する存在ではない

　生成AIは、過去の会話を覚えているように見えます。しかし実際には、LLMは人間のような記憶を自然には持っていません。企業でAIエージェント活用が進む中、この"覚えているように見えるだけ"という性質が、本番運用での継続性不足や品質劣化の原因になります。本稿では、AIが「忘れる」とはどういうことかを整理し、メモリエンジニアリングの必要性へつなげます。

　企業で生成AIやAIエージェントの活用が進むにつれ、「PoCではうまく動いたのに本番では安定しない」「過去のやり取りを踏まえた対応が続かない」「担当者や顧客ごとの前提を引き継げない」といった問題が目立つようになってきました。こうしたつまずきの背景には、モデル性能そのものだけではなく、AIが"何を覚え、何を忘れ、どう思い出すか"が設計されていないという構造的な問題があります。ChatGPTやClaudeなどの生成AIを使っていると、「このAIは前に話したことを覚えている」と感じることがあります。先ほどの指示を踏まえて回答したり、前段の会話を前提に口調や説明を調整したりするからです。しかし、ここで起きているのは、人間のような長期記憶ではありません。LLMは、その場で与えられた入力をもとに次のトークンを予測しているにすぎず、状態を外部に保存しない限り、基本的には毎回ゼロから始まります。Anthropicも長時間動くエージェントの課題として、「新しいセッションは前回の記憶なしに始まる」と説明しています（https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents）。

　この点は、企業でAIエージェントを使おうとした瞬間に重要になります。単発の要約や翻訳なら、その場で完結します。ところが、顧客対応、社内問い合わせ、コード修正支援のような業務では、「前回の合意を踏まえる」「過去の失敗を繰り返さない」「利用者ごとの前提を引き継ぐ」といった継続性が必要です。コンテキストウィンドウの拡大は、この問題を多少先送りにしますが、解決そのものではありません。広がるのはあくまで一時的な作業メモリであって、持続的に保持・更新・想起できる記憶、いわばdurable memoryとは言いにくいからです。

　ここでよくある誤解が、「RAGがあれば記憶になるのではないか」という考え方です。もちろんRAGは重要です。必要な情報を検索し、その場の回答に注入する仕組みとして、実装上の価値は非常に高いものです。ただし、RAGは本質的には取得手段です。AnthropicのContextual Retrievalも、RAGのretrieval stepを改善する手法として位置付けられています（https://www.anthropic.com/news/contextual-retrieval）。つまりRAGは「必要なときに情報を取りに行く」ための仕組みであり、「何を保存し、どう更新し、いつ忘れ、どの条件で思い出すか」を扱う記憶そのものではありません。Mem0の論文でも、RAGやfull-contextとは別のベースラインとして比較されており、LOCOMOベンチマークでは単純な全履歴投入や通常のRAGより、記憶中心の構成の方が長期対話では有利だと報告されています（https://arxiv.org/abs/2504.19413）。

　この違いは、企業の実運用において顕著に現れます。たとえば、社内問い合わせ対応のAIを考えてみます。RAGによってマニュアルやFAQを検索し回答できる状態は実現できますが、そのAIは「過去にどのような問い合わせがあり、どの回答が適切だったか」を蓄積しているわけではありません。つまり、同じような問い合わせが繰り返されても、その都度検索し直すだけで、応答の質が継続的に改善される構造にはなっていないのです。

　また、顧客対応の文脈でも同様です。過去のやり取りや顧客ごとの状況を踏まえた応答が求められる場面では、単に関連文書を検索するだけでは不十分です。本来であれば、「この顧客は過去にどのような課題を抱えていたか」「どの説明が理解されやすかったか」といった履歴が、次の応答に活かされる必要があります。しかし、記憶が設計されていないAIは、それらを持たず、毎回リセットされた状態で応答を生成します。

　このように、RAGは情報にアクセスするための重要な仕組みである一方で、経験を蓄積し、次に活かすための仕組みではありません。この差が、企業においてAIが「使えるが、成長しない」と感じられる大きな要因となっています。

図：PoC（デモ）と本番環境におけるコンテキストの汚れ度合いの違いとノイズ蓄積の原因の可視化｜Developers Summit 2026講演「Memory Is All You Need」より（筆者作成）　[画像クリックで拡大]

　ここでいう「忘却」とは、単に情報が消えることだけを指しません。保存されないこと、保存されても適切に想起できないこと、ノイズや古い文脈に埋もれて必要な情報を取り出せなくなることも含みます。企業で問題になるのは、まさにこの広い意味での忘却です。

次のページ
長い履歴はなぜ劣化するのか

この記事は参考になりましたか？

広告を読み込めませんでした

広告を読み込み中...

印刷用を表示

小川航平の「AIエージェントのための記憶と境界の設計論」連載記事一覧: AIエージェントの記憶とは何か？会話履歴を業務判断に変える設計

なぜAIは本番で“崩れる”のか？「コンテキスト劣化の罠」を乗り越えるための「記憶設計」

この記事の著者: 小川航平（オガワコウヘイ）

　日本オラクル株式会社 Principal AI Data Software Solution Developer。データ分析基盤と生成AI領域を中心に、構想段階の課題を技術要件へ落とし込み、プロトタイピングから実装、導入までを横断して担う。OCIのAI Agent、AI Database、Mult...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事