
第12回は2023年7月にリリースされたMySQL HeatWave Lakehouseについて解説します。既存のMySQL HeatWave環境はインメモリ・データストアの力を借りてデータベース分析の高速化を図りますが、Lakehouseはさらに一歩進み、オブジェクト・ストレージ上のCSVやParquetファイルも高速に処理します。この拡張機能が実際に企業にどれだけの費用対効果をもたらすのか、詳細を解説します。
MySQL HeatWave Lakehouseとは
MySQL HeatWave LakehouseはMySQLのクラウドデータベースであるMySQL HeatWaveの最新の拡張機能です。MySQL HeatWaveではデータベース内のデータの分析を高速化するためにMySQLサーバーと連動するインメモリ・データストアのHeatWaveノードにデータをロードし、複数台のノードが並列で処理を実行するアーキテクチャとなっています。HeatWave Lakehouseではこの仕組みを拡張し、オブジェクト・ストレージ上のCSVファイルやParquetファイルのデータをHeatWaveノードのメモリにロードして、分散型インメモリ・データストアとしての処理性能を活用して高速なデータ分析を実現しています。
1つのクラスターにおけるHeatWaveノードの台数は64台が上限でしたが、HeatWave Lakehouseのリリースのタイミングで512台に引き上げられました。HeatWaveノードではデータを圧縮した状態でメモリ上に格納しますが、圧縮前のデータサイズで1ノードあたり約1TBのデータを保持することが可能です。このためHeatWave Lakehouseでは最大で500TBのオブジェクト・ストレージ上のデータを処理することが可能です。
HeatWaveノード上にロードされたオブジェクト・ストレージのデータにアプリケーションからアクセスする際には、MySQLサーバー上の通常のテーブルのように見えるようになっています。このために開発されたのがLakehouseストレージ・エンジンです。InnoDBのテーブルをHeatWaveノードにロードした場合と同様にデータの実体はHeatWaveノードのメモリ上に格納されています。
オブジェクト・ストレージ上のデータの分析
MySQLをはじめとするリレーショナル・データベース(RDBMS)でのデータの管理に加えて、RDBMS外にデータが置かれることも広がっており飛躍的に規模が増加しています。一方で収集されたデータの活用は進んでおらずGrow.comの調査によれば収集された99.5%のデータが活用されないままとなっているとされています。IoTデバイスやセンサーなどから生成されるデータはオブジェクト・ストレージに格納されることがありますが、オブジェクト・ストレージはデータ分析向けに最適化されたストレージではありません。オブジェクト・ストレージに直接分析クエリを実行できるサービスは複数あるものの、残念ながら処理性能がそこまで高いとはいえません。

MySQL HeatWave Lakehouseでは分析前にデータをHeatWaveノードのメモリにロードして、インメモリ・データストアの仕組みをフル活用することで性能の課題を解決しています。
この記事は参考になりましたか?
- 関連リンク
- MySQLとHeatWaveが切り開くオープンソース・データベースの新基準連載記事一覧
- この記事の著者
-
梶山隆輔(カジヤマリュウスケ)
日本オラクル MySQL Global Business Unit Asia Pacific & Japan担当 MySQLソリューション・エンジニアリング・ディレクターオラクル社において、MySQLのお客様環境への導入支援や製品の技術解説を担当するセールスコンサルタントチームのアジア太平洋地域リーダー。多国籍なM...
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
この記事は参考になりましたか?
この記事をシェア