「求められるデータ管理と情報活用の戦略(前編)」はこちら
様々なデータ統合アプローチと今後の方向性
さてここでは、これまでデータ管理とデータ活用においてどのような解決アプローチがあったのかを見てみる。最初にデータ統合であるが、これは古くて新しい課題であり、これまでも様々なデータ統合に対して有用であるとされるアプローチが紹介されてきた。ここでは、これまでのデータ統合に対するアプローチを整理してみる。その結果、データ統合に対するアプローチは以下の3つに大別できると考える(図4)。
- チェーン型統合:正本となる1つのマスタから関連するシステムにデータ配信/同期を行う。一括同期、部分同期といったバリエーションがあり、マスタ・データ管理(MDM :Master Data Management)とも呼ばれる。
- ハブ型統合:顧客、製品、連結など、重要性が高いデータの正本をデータ中継点(ハブ)から提供する。チェーン型と異なり、一方向からの同期ではなく協調的なデータ連携である。トランザクション・データを含む場合があり、MDMのバリエーションの1つである。
- DWH 型統合:DWHへのデータ抽出、変換、蓄積は、個別の業務システムのセマンティクスが異なるデータを、ある時点で蓄積、統合するものと見ることができる。ETLやCDC(Change Data Capture)などがある。
これらのアプローチには一長一短がある。例えば、チェーン型は、データの正確性を高めることはできるが、基本的にはマスタ・データに限定されるため完全性への寄与は限定的となる。DWH型は、最も完全性が高いが、柔軟性や即時性に限界がある。ハブ型は、データの冗長性がやや高まる欠点はあるが、正当性、完全性をバランスよく向上できるのが特徴である。
データ管理の観点から考えると、理想的な形態は、データ統合によって、物理的に統合されたひとつのデータリポジトリを構築することと言える。小規模なデータベースが複数存在し、そのレプリカが多数作成される環境では、運用負荷が複雑になり、セキュリティーや統制維持の観点においても問題が発生する可能性が高まるからである。さらに、データリポジトリの統合はデータ品質の向上に貢献するものであり、また詳細レベルのデータまでが統合されていれば、過去に遡った様々なデータ分析ニーズに迅速に対応できる。
しかし、一方で、現実の企業システムは個々のアプリケーションごとにデータリポジトリを持っており、経営環境が変化する速度が上がっている現在では、リポジトリの数は増加傾向にあり、すべてのデータをひとつのリポジトリで管理することは、必ずしも現実的とは言えない状況にある。物理的にデータを統合するために多大な時間を費やすことにもなりかねず、さらに強まるであろうリアルタイム・ニーズへの対応も困難となる。そこで、現実のシステムでは、データ統合だけでなく、データ連携ソリューションも利用されている(図5)。
ETL は、ESB に比べ、メッセージングによる非同期通信や複雑なルーティング機能はサポートしていないが、データに対する様々な機能をサポートしている。これはETLが、プロセス連携でなくデータ統合を指向したソリューションとして開発されたことによる。しかし、ETLもリアルタイム性の向上に向けた分散処理や、メッセージ通信に対する機能拡張や、ビジネスルールなどのプロセス定義方法の標準であるBPELを採用するなど、ETLとESBは相互に機能を取り込む方向にある。
現時点では、ESBはプロセスやデータの連携、ETLやEIIはデータ統合というように、用途を異にした別々のソリューションと考えられているが、迅速な経営環境の変化に対応するための柔軟なシステムを構築するためには、データとプロセスを統合的に管理する必要があることから、以下のような機能を持った次世代のデータ管理ソリューションの必要性が高まっている。
- 様々なニーズに対応する柔軟なアーキテクチャの確立
- リアルタイム・データ共有の実現
- より正確なデータ・アクセス制御とセキュリティーの確保
- ア プリケーション展開における拡張性やパフォーマンスの提供