3つのアーキテクチャーの特徴
データレイク、データウェアハウス、データハブの3つは、データ分析環境の整備において重要な投資領域である。しかし、周辺から「データウェアハウスがあるからデータレイクはいらない」「データレイクで全部できるからデータウェアハウスはいらない」などのコメントを聞いたことがないだろうか。この言葉からはデータ分析アーキテクチャーに関する混乱が窺えるとガートナー シニア プリンシパル, アナリストのロバート・タナラージ氏は指摘する。企業内でデータ分析のユースケースを増やしていくには、それぞれの違いを理解することが不可欠だ。
図1では3つのデータマネジメントアーキテクチャーを特徴ごとに整理したものであり、データハブだけが他の2つと異なることがわかる。それぞれがどのようなアーキテクチャーかは後述するが、「実際にはこの分類のように『はい』か『いいえ』では表現できないグレーな領域がある」とタナラージ氏は語る。例えば、データハブは分析ワークロードの基盤にはならないとなっているが、実行できる分析ワークロードが全くないわけではない。データハブと同様に、データウェアハウスでも複数のエンドポイント間のデータ共有を行うこともできる。しかし、「この3つは決して互いを置き換えるものではなく、それぞれの得意分野は異なる」とタナラージ氏は強調した。
図1からはデータウェアハウスとデータレイクが似ているともわかる。実際、この2つは両方ともトランザクションデータを保存し、分析ワークロードの実行基盤となるアーキテクチャーという点で共通する。残るデータハブは、データを生成する側のエンドポイントとデータを利用する側のエンドポイント間でデータを共有できるようにするアーキテクチャーである。さらに、この3つはプロダクトではなく、アーキテクチャー概念であるという意味で共通する。そしてそれぞれを組み合わせればより良い成果が得られるとタナラージ氏は解説した。