AI導入の需要増加の裏にある、データ整備の課題
1997年の創業から、データマネジメント事業を一貫して手がけているNTTデータ バリュー・エンジニア。同社はシステム開発を行わず、データのみに着目し、組織のデータマネジメントの支援を実施。案件数は、1,500を超えているという。
「データに関わる領域を主戦場として取り組み、データマネジメントの普及・教育を推進する、さまざまな取り組みを計画しています」と語るのは、同社 データマネジメント事業本部 シニアエキスパートの沖崎太郎氏だ。
沖崎氏は講演冒頭、昨今の企業におけるAIの取り組み状況と、そこから見えてきた課題を説明した。IPA(情報処理推進機構)の調査によれば、AIの導入を検討している企業は増加傾向にあり、特に従業員数1,000人以上の企業では、87%が導入の検討に着手している。1,000人以下の企業も、半数以上が検討を始めているという。これらの数字から、AI活用は単なるブームでとどまらず、着々と社会に浸透しはじめていることが見てとれる。
一方、導入が進んだことで課題も見えてきた。同調査によると、「有効な学習データを保管、蓄積していない」(26.6%)、「学習データの整備が困難」(19.5%)など、データにまつわる課題が一定数見受けられる。また、生成AIを活用する際の課題に、データ品質を挙げる企業が30%存在し、データの整備・品質に関わるキーワードも課題の上位となった。まさにAI活用においては、“データが重要である”ことが数字としても表れている。
そして、生成AIを活用するための代表的な手法に「RAG」がある。RAGの精度を向上させるためにも、データがクレンジングされていること、構造化されていること、図表がテキスト化されていること、メタデータや要約、文脈などが付与されていること、QA形式で整備されていることなどが必要だ。
「これらを満たす、高品質なデータをいかに整備できるか。これがAI活用にとって重要な要素と考えられます」(沖崎氏)