レイクハウスは水辺の素敵なコテージではない
2022年、“DX”は記事の中でうんざりするほど使った言葉だが、その取り組みで当たり前なのが“データ活用”だ。そしてデータ活用における新たなキーワードが“Data Lakehouse(データレイクハウス)”だろう。これは構造化、非構造化を問わずさまざまなデータを一元的に保存するデータレイクと、データ分析に特化した統合データベースのデータウェアハウスを合わせたもの。双方の優れたところを併せ持つ、新たなデータ活用プラットフォームという意味だ。データレイクハウスを前面に押し出しているのが、クラウド型のデータ分析基盤を提供するDatabricksだ。
ちなみにDataをとって、“Lakehouse”をGoogleで検索すると、約150万件のコンテンツがヒットする。最初のいくつかはDatabricksに関連するものだが、それに続いて宿泊施設のコンテンツが表示されている。たしかにレイクハウスだと、水辺のコテージみたいなものを想像してしまい大量データを高速に扱う最新のITシステムをイメージし難い。
データレイクハウスは、Databricksだけが使っている言葉かと思っていたが、OracleもMySQL HeatWave Lakehouseという新たなサービスを発表している。さらにGoogle Cloudも、2021年に既に「データの保存と分析を一緒に実現する新たなアーキテクチャとしてデータレイクハウスが登場した」とブログに記している。さらにSnowflakeも、同社のWebサイトに“What is a Data Lakehouse?”というコンテンツを掲載している。どうやらデータ活用ソリューションを提供するベンダーの間では、Data Lakehouseがかなり市民権を得たキーワードとなっているようだ。
データを溜めるところと分析するところが分かれていると、リアルタイム性が損なわれる。データレイクとデータウェアハウスが別々だと、2つの間でデータを移動させる手間とコストもかかる。言葉のイメージの善し悪しはともかく、データレイクハウスのデータ保存と分析を一緒にするコンセプトは、2023年の1つのトレンドとなりそうだ。