AIの正答率を10％から94％に上げるメタデータの真価──“情報の付与”を実運用に乗せる3ステップ

第2回：どこから整備すべき？投資対効果が高いメタデータ整備の重点ビジネス領域とは

2026/06/29 09:00

通知

　生成AIやAIエージェントの活用が急速に広がる中、多くの企業で課題に挙がるのが「AIの精度」に係る問題です。その課題の根本原因はAIモデルではなく、AIに渡すデータの品質と管理にあります。その解決に向けたカギを握るのが「メタデータ」。連載「《脱・AI迷走》メタデータの掟」では、企業データの90％を占める非構造化データとメタデータの関係を整理しながら、AI活用の本質と、IT部門が取り組むべき最初のステップを解説しています。第2回となる本稿では、メタデータをどう付与すべきか、実際の運用ステップに落とし込みながら説明します。

通知

メタデータ、自社のファイルにどう付与するか？

　前回、AIの回答精度を高めるうえでメタデータがいかに重要かについて解説しました。メタデータがあることで、AIに渡す情報を必要最小限に絞り込めて、回答精度を大幅に向上させることができるからです。

　では、実際に企業のなかでメタデータをどう付与するのか。今回は、従来は人手でまかなっていたメタデータの抽出をAIでどのように効率化できるのかについて、精度／スピード／コストの3つの観点からメタデータ整備がもたらす具体的な効果と実践的な方法を解説します。

▼第1回の連載記事

　企業には膨大な量の非構造化データが蓄積されています。契約書／申請書／報告書／議事録／提案書……これらすべてにメタデータを付与するとなると、人手では到底追いつかない作業量が発生します。しかも、非構造化データである契約書や申請書は、書式も記載内容もバラバラ。必要なメタデータを正確に抽出することも簡単ではありません。

　そこで有効なのが、この抽出作業にAIを活用すること。本稿では、AIによるメタデータ抽出にはどのようなメリットがあるのか、これによりAIの回答精度を向上させる方法もあわせて解説していきます。

手動によるメタデータ付与の限界

　これまで、メタデータの付与は主に人の手によって行われてきました。しかし、その運用負荷は非常に大きく、多くの企業で形骸化してきた実態があります。

　たとえば、契約書1件に対して「契約種別」「契約金額」「締結日」「保管期限」「管轄部署」という5つの項目を手動で入力するとします。1件あたりの作業時間は数分でも、数千、数万件の契約書に対応するとなれば、その工数は膨大になります。また、手動で行うことで入力ミスや記入漏れが生じる懸念も拭えません。

　そのため、多くの企業ではメタデータを付与する代わりに、フォルダの階層を分けたり、ファイル名に規則を設けたりすることでデータを識別しやすくする工夫をしてきました。「部署名＞取引先名＞年度」といったフォルダ階層を作り、ファイル名に日付や種別を含めるといった方法です。

　しかし、この方法には限界があります。フォルダ構造は一次元的な分類しかできず、複数の条件で横断的に検索することが難しいのです。また、命名規則が徹底されなければ、すぐに管理が崩れてしまいます。

　メタデータを付与する際には、その文書内からキーワードを抽出し、メタデータの値として用いることが有効です。その際、企業内データの90％が非構造化データだといわれることからも、多くの場合はPDF文書などの非構造化データからメタデータを抽出することになります。

　しかし、非構造化データからメタデータを抽出するのは簡単ではありません。その理由は、主に「書式の多様性」と「記述のばらつき」にあります。

次のページ
非構造化データからのメタデータ抽出はなぜ難しい？ AIが突破口となる理由

この記事は参考になりましたか？

広告を読み込めませんでした

広告を読み込み中...

印刷用を表示

《脱・AI迷走》メタデータの掟連載記事一覧: AIの正答率を10％から94％に上げるメタデータの真価──“情報の付与”を実運用に乗せる3...

AIの精度を下げる「コンテキストの腐敗」回避術──“正しい情報”だけをつかませるメタデータ...

この記事の著者: 武田新之助（タケダシンノスケ）

20年以上にわたり、銀行の情報システム部門や日系SIerのプリセールスエンジニア、外資系ベンダーのアーキテクトとして活躍。特にコラボレーション・コミュニケーション領域において幅広い知識と豊富な経験を有する。日本マイクロソフトを経て2023年にBox Japanに移籍。プロダクトマーケティングマネージ...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事