ガートナーのアナリストが解説する3つのデータ分析環境の使い分け:データ・レイク/データウェアハウス/データ・ハブ
「ガートナー データ&アナリティクス サミット 2021」 レポート
データに基づく意思決定は、優れた環境整備なくして成り立たない。7月12日から13日にかけて行われた「ガートナー データ&アナリティクス サミット」では、IT部門やDX推進室などでデータ分析環境の整備に取り組むリーダーに向け、ガートナーのアナリストからテクノロジーを組み合わせて使う方法の解説があった。この記事では、「データ・レイク、データウェアハウス、データ・ハブは同じではない:機能と目的の違いを理解する」と題した講演の内容を紹介する。
3つのアーキテクチャーの特徴
データレイク、データウェアハウス、データハブの3つは、データ分析環境の整備において重要な投資領域である。しかし、周辺から「データウェアハウスがあるからデータレイクはいらない」「データレイクで全部できるからデータウェアハウスはいらない」などのコメントを聞いたことがないだろうか。この言葉からはデータ分析アーキテクチャーに関する混乱が窺えるとガートナー シニア プリンシパル, アナリストのロバート・タナラージ氏は指摘する。企業内でデータ分析のユースケースを増やしていくには、それぞれの違いを理解することが不可欠だ。
図1では3つのデータマネジメントアーキテクチャーを特徴ごとに整理したものであり、データハブだけが他の2つと異なることがわかる。それぞれがどのようなアーキテクチャーかは後述するが、「実際にはこの分類のように『はい』か『いいえ』では表現できないグレーな領域がある」とタナラージ氏は語る。例えば、データハブは分析ワークロードの基盤にはならないとなっているが、実行できる分析ワークロードが全くないわけではない。データハブと同様に、データウェアハウスでも複数のエンドポイント間のデータ共有を行うこともできる。しかし、「この3つは決して互いを置き換えるものではなく、それぞれの得意分野は異なる」とタナラージ氏は強調した。

図1からはデータウェアハウスとデータレイクが似ているともわかる。実際、この2つは両方ともトランザクションデータを保存し、分析ワークロードの実行基盤となるアーキテクチャーという点で共通する。残るデータハブは、データを生成する側のエンドポイントとデータを利用する側のエンドポイント間でデータを共有できるようにするアーキテクチャーである。さらに、この3つはプロダクトではなく、アーキテクチャー概念であるという意味で共通する。そしてそれぞれを組み合わせればより良い成果が得られるとタナラージ氏は解説した。
この記事は参考になりましたか?
- この記事の著者
-
冨永 裕子(トミナガ ユウコ)
IT調査会社(ITR、IDC Japan)で、エンタープライズIT分野におけるソフトウエアの調査プロジェクトを担当する。その傍らITコンサルタントとして、ユーザー企業を対象としたITマネジメント領域を中心としたコンサルティングプロジェクトを経験。現在はフリーランスのITアナリスト兼ITコンサルタン...
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
この記事は参考になりましたか?
この記事をシェア