生成AIやAIエージェントの活用が急速に広がる中、多くの企業がAIの精度に課題を感じていることでしょう。しかし、その課題の根本原因はAIモデルではなく、AIに渡すデータの品質と管理にあります。新連載「《脱・AI迷走》メタデータの掟」では、企業データの90%を占める非構造化データとメタデータの関係を整理しながら、AI活用の本質と、IT部門が取り組むべき最初のステップを解説していきます。
AI活用の成否を分けるメタデータの重要性
AIエージェントのビジネス活用に注目が集まる中、「AIをどう業務に組み込むか」というフェーズで多くの企業が試行錯誤しています。AIは私たちの業務のあり方を大きく変えつつある一方、実務のなかで一層活用したいと考えたときには、AIの精度向上がどうしても課題になってきます。
AIの精度が上がらない根本の原因はしばしばAIモデルの性能にあると考えられがちですが、実はAIに渡しているデータに原因があるケースのほうが多いです。この精度向上のカギを握るのが「メタデータ」。本稿では、AI時代におけるメタデータの重要性を再認識し、AIを活用した業務アプリケーションを構築する上でメタデータがなぜ必要なのかを整理します。
メタデータは回答精度をどう高めているのか?
LLMには、一度に処理・記憶できるトークン量に上限があります。これは「コンテキストウィンドウ」と呼ばれ、利用量に応じて年々拡大していますが無限ではありません。また、上限いっぱいまで情報を詰め込めば確実に正しく処理できるというものでもありません。さらに、AIに入力される情報量が増加するにつれて、AIの性能や回答精度が低下していく「コンテキストの腐敗(Context Rot)」という現象も生じます。多くの情報を与えれば与えるほど、AIはその膨大な情報の中から適切な答えを見つけ出すのに苦労するのです。
これは人間に置き換えると分かりやすいでしょう。たとえば、日本史の教科書を渡されて「徳川幕府第10代将軍は?」と聞かれるより、徳川幕府歴代将軍をまとめた表を渡されたほうが正確に回答しやすいはずですよね。AIも同じで、重要なのは情報の量ではなく「質」です。
「GIGO(Garbage In, Garbage Out)」といわれるように、質の低い情報からは質の低い結果しか生まれません。では、どうすべきか。AIに渡す情報の量を減らしながら、回答の質を高めるためのカギとなるのがメタデータです。
メタデータとは、ファイルに付与された属性情報のこと。文書ファイルであれば、その本文とは別に文書に貼り付けられたラベルのようなものです。契約書を例にとると、「契約ステータス(承認済み・未承認・ドラフト・失効)」「契約種別(NDA・業務委託契約・売買契約)」「契約金額」「締結日」「保管期限」「管轄部署」といった情報が該当します。メタデータがあれば、本文を一字一句読まなくても、文書を整理したり、条件に合うものだけを取り出したりできます。
[クリックすると拡大します]
メタデータが付与されていると、AIの動き方も変わります。たとえば、ユーザーが「承認済みの業務委託契約書で、契約金額が200万円未満のものは?」と質問したとします。先に挙げたような契約ステータスや契約種別などのメタデータがファイルに付与されている場合、AIはこのメタデータを参照し、自然文を「ステータス = 承認済み AND 種別 = 業務委託契約書 AND 金額 <200万円」という検索条件に変換します。メタデータによって、AIに渡される情報が最初から必要最小限に絞り込まれるのです。
一方、メタデータがない場合、AIはどのような動きをするでしょうか。本文に対する単純なキーワード検索では、「200万円」という文字列を含む文書を探すことはできても、「契約金額が200万円未満」という範囲条件で絞り込むことはできません。また本文中に「200万円」と書かれていたとしても、それが契約金額なのか、違約金なのか、説明がないと判別できません。
この記事は参考になりましたか?
- この記事の著者
-
武田 新之助(タケダ シンノスケ)
20年以上にわたり、銀行の情報システム部門や日系SIerのプリセールスエンジニア、外資系ベンダーのアーキテクトとして活躍。特にコラボレーション・コミュニケーション領域において幅広い知識と豊富な経験を有する。日本マイクロソフトを経て2023年にBox Japanに移籍。プロダクトマーケティングマネージ...
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
この記事は参考になりましたか?
この記事をシェア
