生成AIがビジネス変革のツールとして急速に普及する中、その成否を握るカギとして「データ基盤」の在り方が改めて問われている。多くの企業でAIによるビジネスの変革が進む、いわゆる「AI時代」において、従来のデータ基盤が抱える課題を乗り越え、AI技術の可能性を最大限に引き出す次世代アーキテクチャとはどのようなものか。本稿では、データ基盤の構築・整備・運用を担当する方に向け、AI活用を前提としたデータ基盤が直面する具体的な課題を整理し、必要な要件、そして実現に向けた検討ポイントを深掘りした。また、組織がAI時代を生き抜くためのデータ戦略と、データ基盤担当者に求められる新たなスキルセットについても解説する。
AI活用の成否を握る? 「データ基盤」の在り方
生成AIのビジネスシーンにおける活用がますます重要視される昨今。経済産業省では、生成AIを変革のためのツールと位置づけ、ガイドライン等のルール整備を行いながら活用を促進している。実際に、生成AIによって新たなサービスを創出したり、ビジネスモデルそのものを変革したりと、多くの企業で導入が進んでいる。このような状況は、まさに「AI時代」と呼ぶにふさわしいだろう。
生成AIを含むAIの活用を語る上で欠かせないのがデータだ。ビジネスでAIを本格的に活用するためには、その情報源となるデータを整備・管理する基盤が必要不可欠である。こうしたデータ基盤は、データの収集・保存・処理・統合・分析を行うための統合された技術基盤であり、様々なデータソースからビジネス価値を引き出すためのデータセットを提供する仕組みと定義できる。
データ基盤は進化を続けており、その中核となるデータベースには、トランザクショナルデータベース、データウェアハウス、データレイク、データレイクハウスなど、様々な種類が存在する。最近では、データ仮想化、データファブリック、データメッシュといった世界観を実現するためのデータプロダクト機能も登場している。
こうしたデータ基盤を整備・運用している企業は多くいるだろう。しかし今後AIエージェントなどのビジネス活用がますます本格化する未来を見据えたとき、果たしてデータ基盤はこれまでと同じもので良いのか。そもそもAIの技術を最大限に活用するためには、どのようなデータ基盤が最適なのか。AI時代が訪れる今こそ、改めてデータ基盤をイチから捉え直し、AI時代に求められるデータ基盤の在り方を模索していく必要があるのではないだろうか。
そこで本稿では、AI時代におけるデータ基盤の課題を整理し、求められる要件とその構築アプローチを紹介する。最後には、今後の方向性について筆者の見解を述べたい。
データ基盤が抱える4つの課題
AIを活用するためのデータを考える際に直面する最初の課題は「データのサイロ化問題」だろう。これは、個別最適化により多様な形式のデータがオンプレミスやクラウド、本社や子会社、本社管理部門や事業部門などに散在していることで生じる課題だ。なお、これらの課題にはBIや帳票作成といった従来のデータ利用による課題も含まれる。
また、たとえばAI活用のPoC段階では、データサイエンティストによって丁寧に準備された少量のデータを扱うため問題にならないが、いざ本番環境での稼働に向けてシステムでのデータ管理や運用が必要となった際に生じる課題も、データのサイロ化問題に含まれることに留意する必要がある。
以下に、データ基盤における4つの課題を整理する。
1. 複雑なデータ環境と増加するデータ量
レガシーなオンプレミスシステムで生成されたデータをクラウドで利用するなど、データが生成される場所と利用される場所が異なる環境では、それぞれのプロトコルやファイル形式が異なるため、データが連携できない。これは、リレーショナルデータベース管理システム(Relational Database Management System:RDBMS)やクラウドのデータベース、ストリーミング、ファイル転送といった異なるデータソースが混在するときに生じる問題だ。
また、データ量の増大が原因で、データセットの作成や分析に時間がかかることもある。この遅延を解消しようと高性能なハードウェアを導入すると、システム費用が増大し費用対効果を説明できないといった別の課題が発生するケースも少なからず見られる。
これらの課題を解決しないと、分散したデータを統合して短時間で結果を得る必要があるユースケース、たとえば、クレジットカードの不正使用やマネーロンダリングの検知は実現できない。
2. データの探索準備やデータ検索
メタデータ(属性情報)が不足していると、データ消費者であるAIに提供すべきデータセットの作成や、文脈や意味に基づいた正しいデータ利用ができない。言い換えると、メタデータ不足は、AI活用を計画する際のデータ資産の棚卸、複数のデータソースに対する横断的なデータの利用、属人性の排除、マルチモーダルAIによる構造化データと非構造化データの統合利用といった重要な作業を阻害する要因になるのだ。
3. データ品質とデータ整合性
異なる組織同士(たとえば支社と本社の間)でデータ形式が一致していなかったり、メタデータが欠落した画像などの不完全なデータが多かったり、手動入力による不正確なデータに起因するエラーが存在したりしていると、複数のデータソースに対する横断的なデータ利用や、正確な結果の取得が難しくなる。
AIの精度は、データのノイズや欠損、ラベルミスがなく、形式が統一された高品質なデータに依存するため、これらの課題を解決する必要がある。
4. セキュリティとガバナンス
悪意あるサイバー攻撃や不正アクセスに対抗するためのセキュリティ対策に加え、万が一被害に遭ってしまった場合の対応についても事前に取り決めておく必要がある。個人情報や機密文書の漏えいによる信頼の失墜といったリスクへの対応に加えて、法規制(日本では、サイバーセキュリティ基本法、個人情報保護法など)への準拠も求められる。サイバー防御、適切なアクセス制御、法令順守は、安全で信頼性の高いAI活用の前提であり、AIアプリケーションとデータ基盤の双方で対応する必要がある。
この記事は参考になりましたか?
- この記事の著者
-
小野 良夫(オノ ヨシオ)
デル・テクノロジーズ Data Analytics /AI担当シニアスペシャリスト。院卒・データ分析SIプロジェクトや、データマネジメント製品のテクニカルセールスを経験。現在は、AIによるデータ利活用を推進するためのデータマネジメントソリューションのビジネス開発に従事。AI・RAG環境の整備、各種デ...
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
-
堀田 鋭二郎(ホッタ エイジロウ)
デル・テクノロジーズ AIプラットフォーム・ソリューションズ本部 本部長。学士号、MBA(経営学修士)。PMP。金融向けHFTシステム、Webサービスにおけるシステムアーキテクチャー設計、導入、管理運用、データセンター利用導入の実務経験。数多くのプロジェクトをプリセールス、システムコンサルタントとし...
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
この記事は参考になりましたか?
この記事をシェア
