AIの「ゴミデータ」学習を止めるには──データの“状態”を把握する
AI活用においてメタデータが重要なもう一つの理由が、情報源となるファイルの「ステータス」。企業内に保存されているファイルの中には、まだ公開・共有する段階にないファイルも多数存在しますが、AIはその情報の状態(ステータス)を認識しないため、完成されていないファイルであったとしても情報元として回答や処理に利用してしまいます。
本来、AIの情報源は正式版かつ最新版のファイルのみに限定すべきです。そしてこれを実現するための手段として、メタデータが活躍します。「承認済み」「未承認」「ドラフト」「失効」といったステータスの情報をファイルにメタデータとして付与し、処理状況に合わせて更新していくことで、正式版や最新版を区別できるようになり、AIが常に正しいファイルのみを参照するように制御できるのです。
分散したデータがAIを阻害する要因に
先ほど、AI活用を阻害する要因はしばしばデータにあるとお伝えしましたが、その典型例としてデータの分散があります。DXやクラウドシフトなどのIT戦略にあわせて個別最適でさまざまなシステムを導入した結果、ファイルが複数システムや場所に散在してしまっている企業は少なくありません。
この状態では、必要なファイルが見つからなかったり、見つけたとしても似たようなファイルが散在していて最新版がどれか分からなかったりと、ファイルを探すだけでも多くの時間を費やしてしまいます。加えて、各システムでセキュリティポリシーがバラバラなため、セキュリティ対策が不十分なシステムに保存されたファイルから情報が漏えいするリスクも高まります。
企業情報の90%を占めるといわれる非構造化データがこのような形で散在していると、AIがデータを最大限に活用することも難しくなってしまいます。AIが参照する情報を一元化し、「Single Source of Truth(信頼できる唯一の情報源)」の状態を作ることが、AI時代のデータ整備の前提条件となるのです。
非構造化データをメタデータで攻略
ここまで、AI活用においてメタデータがどのような役割を果たすのかをメインに解説してきました。メタデータは決して新しい技術ではありませんが、AIが非構造化データを扱えるようになった今、AI時代に再評価されている技術の一つといえます。
次回はメタデータの具体的な付与方法、そしてAIがメタデータ抽出の課題をどのように解決するかについて解説したいと思います。
この記事は参考になりましたか?
- この記事の著者
-
武田 新之助(タケダ シンノスケ)
20年以上にわたり、銀行の情報システム部門や日系SIerのプリセールスエンジニア、外資系ベンダーのアーキテクトとして活躍。特にコラボレーション・コミュニケーション領域において幅広い知識と豊富な経験を有する。日本マイクロソフトを経て2023年にBox Japanに移籍。プロダクトマーケティングマネージ...
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
この記事は参考になりましたか?
この記事をシェア
