AI導入の需要増加の裏にある、データ整備の課題
1997年の創業から、データマネジメント事業を一貫して手がけているNTTデータ バリュー・エンジニア。同社はシステム開発を行わず、データのみに着目し、組織のデータマネジメントの支援を実施。案件数は、1,500を超えているという。
「データに関わる領域を主戦場として取り組み、データマネジメントの普及・教育を推進する、さまざまな取り組みを計画しています」と語るのは、同社 データマネジメント事業本部 シニアエキスパートの沖崎太郎氏だ。
沖崎氏は講演冒頭、昨今の企業におけるAIの取り組み状況と、そこから見えてきた課題を説明した。IPA(情報処理推進機構)の調査によれば、AIの導入を検討している企業は増加傾向にあり、特に従業員数1,000人以上の企業では、87%が導入の検討に着手している。1,000人以下の企業も、半数以上が検討を始めているという。これらの数字から、AI活用は単なるブームでとどまらず、着々と社会に浸透しはじめていることが見てとれる。
一方、導入が進んだことで課題も見えてきた。同調査によると、「有効な学習データを保管、蓄積していない」(26.6%)、「学習データの整備が困難」(19.5%)など、データにまつわる課題が一定数見受けられる。また、生成AIを活用する際の課題に、データ品質を挙げる企業が30%存在し、データの整備・品質に関わるキーワードも課題の上位となった。まさにAI活用においては、“データが重要である”ことが数字としても表れている。
そして、生成AIを活用するための代表的な手法に「RAG」がある。RAGの精度を向上させるためにも、データがクレンジングされていること、構造化されていること、図表がテキスト化されていること、メタデータや要約、文脈などが付与されていること、QA形式で整備されていることなどが必要だ。
「これらを満たす、高品質なデータをいかに整備できるか。これがAI活用にとって重要な要素と考えられます」(沖崎氏)
国内外40拠点でバラバラだったデータ管理体制……ルール策定の道筋
続いて沖崎氏は、データ品質に関する2つの事例を紹介した。1つ目は、とある製造会社の事例である。その企業では、現場で自由にマスタデータを登録していたことで、重複が発生したり、色の表記がバラバラだったりする課題があった。また、データ活用推進のために目指すべき形は見えていたものの、どこから着手すればよいかわからない状況だったという。
そこでNTTデータ バリュー・エンジニアは、問題の特定を進めるために、データの中身を確認。顧客が把握しきれていない問題点を洗い出し、打ち手を検討した。具体的には、定義書や業務マニュアルなどのドキュメントを確認したり、現場担当者へのヒアリングを行ったり、データの中身を詳細に確認したりしたとのことだ。
「定義書や業務マニュアルといったドキュメント類が適切に更新されておらず、実データの内容に合っていないケースが多く見受けられます。これに対して、データの中身を確認するなど、ファクトベースで実態を把握することで、顧客が把握しきれていなかった、現行データの問題点とその原因を洗い出します」と沖崎氏。この事例では、洗い出したデータの問題ごとにクレンジングの方針を策定し、同じものに対して正しいデータが入るようクレンジングの処理を実施した。このように、データだけ、ドキュメント類だけ、業務だけを見るのではなく、すべてを包括して確認することで、継続してデータ品質を維持できるようになるのだという。
2つ目は、国内外に40拠点を持つ化学メーカーの事例だ。その企業は、拠点ごとにニーズが異なるため、独自のデータ管理ルールで運用していたが、全社的なデータ活用を推進するために、組織横断のデータ管理方針を策定する必要があった。NTTデータ バリュー・エンジニアはこのような状況から、全社共通で永続的なデータ品質を維持管理できるデータ管理方針の策定を支援したという。まず、各拠点で管理しているデータの粒度や品質基準を把握するために、データアセスメントを実施。そこから、顧客と検討を重ね、全社的なデータ運用ルールの策定へとつなげている。
それらが達成できた後は、運用フローの定着化を進めるフェーズ。「ここが非常に大変だった部分です」と沖崎氏は語る。国内外の40ヵ所の拠点から、ルールを正しく反映できているか確認する問い合わせが五月雨式にやってくるからだ。これに対して、同社が回答ノウハウを蓄積し、問い合わせ対応をほぼ定常化するところまで支援することで、今では顧客が自ら運用できるようになっている。
データマネジメントを成功させる、2つのポイント
「ビジネスに合った適切なデータ品質の見定め」と「継続可能なデータマネジメント活動」の2軸が機能しなければ、データ品質の改善にはつながらない。では、実際にデータマネジメント活動を実践するためには、どうすればいいのか。
データマネジメント活動のフレームワークとして有名なDAMAホイールを見ても、検討領域は幅広く、すべてを実施するのは困難だ。そのため、企業ごとに何をどこから着手するか見定めることがポイントとなる。
今回、沖崎氏はNTTデータ バリュー・エンジニアが提案するデータマネジメント支援の中から「企画倒れしない」「永続的な活動とする」という2つのポイントを紹介した。
まず同氏は、「企画倒れしない」という観点から、データマネジメント活動を立ち上げる際に必要な“4つの視点”を説明した。それは、「仲間作り」「企画提案タイミング」「打ち手のたしからしさ」「持続的な活動のための整備」だ。
「これらのポイントを押さえることで、プロジェクトを力強く推進することができます」(沖崎氏)
- 仲間作り:データマネジメントの価値や必要性を理解してもらい、部門を超えた組織的な推進チームを作ることで、データ活用の推進を目指せるようにする
- 企画提案タイミング:データマネジメント単独では効果の可視化が難しいため、データ基盤の導入やシステム刷新とセットでデータマネジメント活動を企画したほうが、上層部の理解を得やすい
- 打ち手のたしからしさ:データアセスメントを行い、現状データの状態を正確に把握することが重要。データアセスメント結果をベースに、求めるデータ品質基準の検討や、必要な手立てを効果的に計画することができる
- 持続的な活動のための整備:ビジネスは変化するため、必要とされるデータの品質も変化する。そこで、定期的に品質を測定し見直すことも事前に考慮することが重要
続けて沖崎氏は、データマネジメント活動を「永続的な活動とする」ためのポイントを紹介。以下の4点を挙げた。
- 活動ガイドラインの策定:各社の風土・実態・実績にあわせた運用ルールを作成する必要がある。同社ではテンプレートを用意しており、それを用いることで顧客の要望に応じたルールを効率的に作成できる
- 活動のための体制と役割の明確化:役割と責任を明確にし、組織的な営みにすることが重要。同社では、データマネジメント活動の役割に対し、それぞれの役割がどの部門に当てはまるかの整理もサポートする
- データ活用教育:データマネジメント活動は、データ活用の推進、拡大を支えるもので、データ活用の普及・啓発活動も永続性を持たせるために重要。成果や成功事例を部門間で共有することも非常に有効
- データ活用を見据えた環境整備:データ統合ツールやMDMツールなどを有効活用できる環境を整えることが必要。同社では、ツール選定のアドバイスが行える
「“AI戦国時代”のデータ活用を支えるには、基礎となるデータ品質を高めていく必要があります。データ品質を高めるには、永続的にデータを維持管理する『データマネジメント活動』が重要です」(沖崎氏)
データマネジメントを推進する独自のフレームワークとは?
同社では、長年の経験をもとにした独自のフレームワークとメソッドを用意している。ビジネスに合わせたデータ品質向上、データ管理活動を企画するために、「『構想策定フェーズ』で、現状に即した打ち手とその根拠が腹落ちできるようにし、その後の『構築・実装フェーズ』に進むことを推奨しています」と沖崎氏は述べる。
上記のフレームワークの特徴は「構想策定支援」「データ構築」「データ運用」の3フェーズでの支援だ。これにより、データに関する課題を「データライフサイクル」を通じて解決できるという。また、特定のシステムやツールに依存していない点もポイントだ。データに着目し、データマネジメント活動の企画から構築、運用までを一貫してサポートできるものになっている。
加えて、データマネジメントを継続・定着させるポイントが記載された「メソッドテンプレート」も用意していると沖崎氏。必要に応じてカスタマイズできるため、スピード感のある支援を実現できると自信を見せた。
なお、同社が提供するソリューションは、4つの軸に沿って分類されている。1つ目は「データマネジメント」。データの統合や整備などに関する、以下の5つの支援を内包している。
- データ統合支援:MDMツールの導入、統合システム構築にともなうデータ統合の支援を行う
- データ整備支援:データの整備、クレンジング、名寄せ支援のほか、データの定期整備運用も支援する
- データ移行支援:システム更改の際に、データ移行を支援する
- データ診断・構想立案支援:データ品質やデータ構造、データ運用プロセスの診断結果をもとに、あるべき姿の構造立案を支援する
- データモデリング作成支援:データモデリングをもとに現状データを可視化し、あるべき姿のto-beデータモデルの作成を支援する
2つ目の軸である「データガバナンス」では、データ統合・整備ができた後、それを維持・管理するために、役割や運用ルールを定める支援を行う。組織あるいはサプライチェーンを横断し、データガバナンスを効かせるためには、共通化するプロセスが必要だからだ。それに対応するため同社では、グループ会社を含めてデータガバナンスを効かせる「データガバナンスの組織横断展開支援」と、データ基盤を継続的に活用できるようにするための「データガバナンス適用支援」を提供している。
3つ目の軸は「データ活用」。データ活用を支えるソリューションは3つあり、同社では以下のような支援を行っているという。
- データアナリティクス支援:企業内のデータサイエンティストやアナリストらがデータを活用する際のデータ活用に耐えうるデータ加工や準備、またそこから作られたデータマートの管理方法、その運用ルール策定などを支援する
- データカタログ支援:メタデータの収集や構築、運用、カタログツールの検討などを支援。効率的にデータ活用・分析を行う際、用意されたデータをどう管理していくべきかまで踏み込んで支援する
- オリジナル研修・教育支援:実際に使われているBIツールやデータウェアハウスを活用し、各事業部からキーマンを集めてデータ活用をリアルに体感してもらう
4つ目の軸である「データ戦略」のソリューションには、「データマネジメントアドバイザリー支援」がある。これは、データマネジメントの重要性をトップマネジメントに理解・納得してもらうための支援だ。その他にも「データマネジメント戦略検討支援」があり、これはデータマネジメントの活動を組織に導入し定着化させる際、外部の巻き込み方、必要なタイミング、運用ルールの策定などをアドバイスする。
「このように、データマネジメント活動に必要な支援を、導入フェーズごとにご用意しています」と沖崎氏。机上のロジックだけでなく、実戦経験が豊富なメンバーが作成したアセット、各社の風土や組織の実情に合わせたデータガバナンスの導入の支援が可能だと、同社のソリューションの特長を強調し、講演を締めくくった。