AIの正答率を10%から94%に上げるメタデータの真価──“情報の付与”を実運用に乗せる3ステップ
第2回:どこから整備すべき? 投資対効果が高いメタデータ整備の重点ビジネス領域とは
生成AIやAIエージェントの活用が急速に広がる中、多くの企業で課題に挙がるのが「AIの精度」に係る問題です。その課題の根本原因はAIモデルではなく、AIに渡すデータの品質と管理にあります。その解決に向けたカギを握るのが「メタデータ」。連載「《脱・AI迷走》メタデータの掟」では、企業データの90%を占める非構造化データとメタデータの関係を整理しながら、AI活用の本質と、IT部門が取り組むべき最初のステップを解説しています。第2回となる本稿では、メタデータをどう付与すべきか、実際の運用ステップに落とし込みながら説明します。
メタデータ、自社のファイルにどう付与するか?
前回、AIの回答精度を高めるうえでメタデータがいかに重要かについて解説しました。メタデータがあることで、AIに渡す情報を必要最小限に絞り込めて、回答精度を大幅に向上させることができるからです。
では、実際に企業のなかでメタデータをどう付与するのか。今回は、従来は人手でまかなっていたメタデータの抽出をAIでどのように効率化できるのかについて、精度/スピード/コストの3つの観点からメタデータ整備がもたらす具体的な効果と実践的な方法を解説します。
▼第1回の連載記事
企業には膨大な量の非構造化データが蓄積されています。契約書/申請書/報告書/議事録/提案書……これらすべてにメタデータを付与するとなると、人手では到底追いつかない作業量が発生します。しかも、非構造化データである契約書や申請書は、書式も記載内容もバラバラ。必要なメタデータを正確に抽出することも簡単ではありません。
そこで有効なのが、この抽出作業にAIを活用すること。本稿では、AIによるメタデータ抽出にはどのようなメリットがあるのか、これによりAIの回答精度を向上させる方法もあわせて解説していきます。
手動によるメタデータ付与の限界
これまで、メタデータの付与は主に人の手によって行われてきました。しかし、その運用負荷は非常に大きく、多くの企業で形骸化してきた実態があります。
たとえば、契約書1件に対して「契約種別」「契約金額」「締結日」「保管期限」「管轄部署」という5つの項目を手動で入力するとします。1件あたりの作業時間は数分でも、数千、数万件の契約書に対応するとなれば、その工数は膨大になります。また、手動で行うことで入力ミスや記入漏れが生じる懸念も拭えません。
そのため、多くの企業ではメタデータを付与する代わりに、フォルダの階層を分けたり、ファイル名に規則を設けたりすることでデータを識別しやすくする工夫をしてきました。「部署名>取引先名>年度」といったフォルダ階層を作り、ファイル名に日付や種別を含めるといった方法です。
しかし、この方法には限界があります。フォルダ構造は一次元的な分類しかできず、複数の条件で横断的に検索することが難しいのです。また、命名規則が徹底されなければ、すぐに管理が崩れてしまいます。
メタデータを付与する際には、その文書内からキーワードを抽出し、メタデータの値として用いることが有効です。その際、企業内データの90%が非構造化データだといわれることからも、多くの場合はPDF文書などの非構造化データからメタデータを抽出することになります。
しかし、非構造化データからメタデータを抽出するのは簡単ではありません。その理由は、主に「書式の多様性」と「記述のばらつき」にあります。
この記事は参考になりましたか?
- 《脱・AI迷走》メタデータの掟連載記事一覧
-
- AIの正答率を10%から94%に上げるメタデータの真価──“情報の付与”を実運用に乗せる3...
- AIの精度を下げる「コンテキストの腐敗」回避術──“正しい情報”だけをつかませるメタデータ...
- この記事の著者
-
武田 新之助(タケダ シンノスケ)
20年以上にわたり、銀行の情報システム部門や日系SIerのプリセールスエンジニア、外資系ベンダーのアーキテクトとして活躍。特にコラボレーション・コミュニケーション領域において幅広い知識と豊富な経験を有する。日本マイクロソフトを経て2023年にBox Japanに移籍。プロダクトマーケティングマネージ...
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
この記事は参考になりましたか?
この記事をシェア
