情シスが「データ提供屋」を卒業する“使える基盤構築”の要諦 勘に頼らないメタデータ更新の仕組みづくり
第3回:価値が不明なデータを「宝の山」に変えるアプローチ
1. “データのゴミ貯め”にしない、非構造化データ整備の3ステップ
非構造化データの整備は以下3つのステップで実行します。
ステップ1:目的の明確化
まずは非構造化データを活用する目的を明確にすることから始めます。たとえば「生産設備に設置したIoTデバイスで収集したセンサーデータを、BIで分析し異常の抽出や変化の兆しを捉えたい」「SNSデータを生成AIに学習させ、数字の文脈や背景を整理したい」など、非構造化データの活用方法を具体化します。活用方法が明確になることで「何のデータがどの形式で必要なのか」が具体化されます。
ステップ2:データの可視化と抽出
次に、必要な非構造化データがどこに存在しているかを探索し、それを利用できる形式に抽出します。ステップ1で触れた例を用いると、IoTデバイスで収集したデータはデータレイクに保管されているでしょうし、SNSデータはクラウド上で公開されているデータとも考えられます。
データの所在はどこであっても構いません。これまで企業におけるデータ活用の文脈では、社内に保管・蓄積したデータを活用していくことにフォーカスされてきましたが、今はデータがどこに存在しているのかさえ明確になっていれば、その情報を正しく認識することでデータへアクセスできます。
まとめると、データ資産の所在・定義・品質・系譜を整理し、レイクハウス構築のために対象データを抽出するという作業が2つ目のステップです。
ステップ3:レイクハウスの構築
ステップ2で抽出したデータを用いてレイクハウスを構築します。レイクハウスにはすべてのデータを保管するのではなくメタデータを保管し、それを参照することで実データへアクセスできる環境を整えることが肝です。レイクハウスを構築する段階で実データの型変換などを行わないようにすることで、さまざまな非構造化データの活用ハードルを下げられるからです。
また、必要に応じて動画・静止画・ドキュメントなどの非構造化データを要約した情報も半構造化データとして取り込むことで、利便性を高めます。これらの要約情報は、AIを活用することで効率的に作成可能です。利用者は、特徴データを用いた検索(例:交通事故が発生したデータの抽出)に活用できます。
ステップ2で整理したデータ資産の所在・定義・品質・系譜は、メタデータとしてレイクハウス上で管理されます。さらに、メタデータには非構造化データ自体へのアクセス方法・取得方法も定義することで、ステップ1で検討したBIや生成AIでデータを活用できます。ステップ2で抽出したデータは、サンプルデータとしてレイクハウスへ保管します。
非構造化データを整備するにあたり、注意すべきポイントがいくつかあります。まず、レイクハウスを構築してデータをそこに蓄積し、いつでも使える状態にするというアプローチは避けてください。こうしたアプローチはデータの利用目的があいまいなため、結果的に使われないシステムを構築してしまう典型例となってしまいます。本章で示したように、最初に目的を明確にして、データの所在を明らかにした上でデータを抽出し、レイクハウスを構築するという手順で進めることが、非構造化データを最大限に活用するための最短ルートなのです。
2. 非構造化データを定義する「データカタログ」の役割
前章でレイクハウスを構築し、非構造化データを統合するアプローチを解説しました。とはいえ、そもそも「必要とするデータが社内にありそうではあるが、どこにあるかわからない」「それを確認する相手や手段もわからない」という課題は往々にして見られます。
この問題を解消し、データ利用を推進して行くうえで鍵となるのが「データカタログ」。データカタログはデータ資産の所在・定義・品質・系譜を一元管理し、検索・アクセス制御を容易にするメタデータ管理基盤です。利用したいデータへのアクセス性を高め、ガバナンスやコンプライアンス、セルフサービス分析を支援します。
かつて業務システムに閉じた範囲でデータ活用を考えていた時代には、明確なデータ定義があるため、そのままデータウェアハウスを構築してBIツールで分析を行うのが一般的でした。しかし、複数のシステムをまたいだ広範なデータ分析の重要性が高まってくると、システムによってデータ定義にギャップが生じてしまう問題が生じました。この対処方法として、マスターデータ管理の仕組みを活用してデータ定義を行うことで、システムをまたいだデータ分析を可能にしたのです。
しかし、この方法は構造化データを前提としたアプローチで、非構造化データを扱おうとすると同様の定義は現実的に困難でした。そこで、この壁を乗り越える仕組みがデータカタログです。
データカタログを言い換えるとすると、社内で保管している、あるいは社内で利用可能なデータの情報を管理するツールといえましょう。データカタログを参照することで、自社で利用可能なデータに関する情報を一元的に把握することができます。
この記事は参考になりましたか?
- 理想論で終わらせない「AIのためのデータ整備メソッド」連載記事一覧
-
- 情シスが「データ提供屋」を卒業する“使える基盤構築”の要諦 勘に頼らないメタデータ更新の仕...
- “場当たり的ETL連携”で絡まったデータ基盤を阻止せよ──「疎結合なAPI戦略」に導く実践...
- Excelでの管理、レガシーシステムによる分断……AIの前に考えるべきデータの問題と「4つ...
- この記事の著者
-
角 邦彦(カド クニヒコ)
合同会社デロイト トーマツのシニアマネジャー。システムインテグレータ、日系コンサルティング会社を経て現職。システム構築の上流工程と事業開発案件を多数経験。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
この記事は参考になりましたか?
この記事をシェア
