AIの正答率を10%から94%に上げるメタデータの真価──“情報の付与”を実運用に乗せる3ステップ
第2回:どこから整備すべき? 投資対効果が高いメタデータ整備の重点ビジネス領域とは
非構造化データからのメタデータ抽出はなぜ難しい? AIが突破口となる理由
非構造化データからのメタデータ抽出について、契約書に記載された「契約金額」を例にとって考えてみましょう。たとえば、A社との契約書には「契約金額:金5000万円(税込)」と記載されているとします。一方、B社との契約書には「報酬額 50,000,000円(消費税別)」と記載されており、C社との契約書では本文中に「本契約に基づく対価として、甲は乙に対し月額400万円を支払うものとする」と文章で埋め込まれています。
これらはすべて“契約金額”というメタデータに対応する情報ですが、表記形式がそれぞれ異なります。このように、単純なキーワード検索や正規表現のみですべてのパターンを網羅することは困難なのです。
さらに、文書によっては必要な情報が明示的に記載されていないケースもあります。たとえば、「契約期間は締結日から1年間とする」という記述がある契約文書にて「有効期限」をメタデータとして付与したい場合、締結日が2026年6月1日であれば有効期限は2027年5月31日となりますが、これは文書を読んで計算しなければ導き出すことができません。
こうしたメタデータ抽出の課題を解決するのがAIです。AIのOCR(光学文字認識)能力や推論能力が向上したことで、文中に明記されていない情報も含めてメタデータを抽出することが可能になりました。
メタデータがないAIの正答率は10%に……
そもそも、ファイルにメタデータを付与することで、AIによる回答精度が劇的に向上するといわれますが、実際どの程度の精度向上が見込まれるのでしょうか。実際に検証した結果を紹介します。
この検証では、契約書/稟議書/取締役会議事録など500件以上の企業ファイル(ダミー)を使ったデータセットを用意し、AIを活用したメタデータ検索とキーワード検索の回答精度を比較しました。50件のユーザープロンプトを用意し、それぞれに対して正解となるファイルセットをどれだけ正確に抽出できるかを比較したものです。用意したプロンプトの例は次のとおり。
- 承認済みのNDAで1億円未満のもの
- 2026年中に保管期限が来る契約書
- ドラフト段階の稟議書
結果は、AIを活用したメタデータ検索では50問中47問に正解(正答率94%)、対するキーワード検索では、50問中5問しか正解できませんでした(正答率10%)。
この差の本質は、メタデータという属性条件を適切に扱えるかどうかにあります。たとえば、「承認済みのNDAで1億円未満のもの」というプロンプトには、少なくとも「承認ステータスが承認済みであること」「文書種別がNDAであること」「契約金額が1億円未満であること」という3つの条件が含まれています。メタデータがあれば、これらはそれぞれ独立したフィールドとして扱えるため、検索条件として明確に指定でき、より正確な回答を探す手がかりとなります。
一方、キーワード検索では「承認済み」「NDA」「1億円」という文字列が本文やファイル名に含まれているかどうかを手がかりにするしかありません。本文中に「1億円」と書かれていたとしても、それが契約金額なのか、違約金なのか、説明がなければ判別できないのです。
この記事は参考になりましたか?
- 《脱・AI迷走》メタデータの掟連載記事一覧
-
- AIの正答率を10%から94%に上げるメタデータの真価──“情報の付与”を実運用に乗せる3...
- AIの精度を下げる「コンテキストの腐敗」回避術──“正しい情報”だけをつかませるメタデータ...
- この記事の著者
-
武田 新之助(タケダ シンノスケ)
20年以上にわたり、銀行の情報システム部門や日系SIerのプリセールスエンジニア、外資系ベンダーのアーキテクトとして活躍。特にコラボレーション・コミュニケーション領域において幅広い知識と豊富な経験を有する。日本マイクロソフトを経て2023年にBox Japanに移籍。プロダクトマーケティングマネージ...
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
この記事は参考になりましたか?
この記事をシェア
