第1回の記事では、HBaseをパッケージングしたHadoopディストリビューションの1つ、MapRが提供しているMapR SandboxというVMイメージを使用して、手元のPCでHBaseに触れてみることから始めます。
次回以降では、データ構造の設計や、実際にログデータを格納してモニタリングを行うアプリケーションのサンプル、格納データに対するいろいろなアクセス方法なども説明していきたいと思います。
HBaseとは
Apache HBaseはHadoopクラスタ上で動作するNoSQLデータベースです。RDBMSが持つACID (Atomicity, Consistency, Isolation, Durability)の属性を一部手放す代わりに、非常に高いスケーラビリティを持つことが特徴です。その他のHBaseの主な特徴を見ていきましょう。
- 柔軟なスキーマ: HBaseに格納されるデータはRDBMSのように厳密なスキーマに必ずしも合わせる必要はありません。このため、非構造化データや準構造化データの格納に適しています。
- ワイドカラム: HBaseはRDBMSのテーブルに似たフォーマットでデータを格納しますが、数百万カラム・数十億件もある巨大なデータを取り扱うことが可能です。カラムは「カラムファミリー」という単位でグループ分けをして取り扱うことで、行に含まれる値を格納する場所やアクセスを物理的に分散させることができ、効率が向上します。
- 分散とスケーラビリティ: HBaseでは複数の行が「リージョン」という単位でまとめられます。テーブルは複数のリージョンに分割され、クラスタ内の複数ノードに配置されます。これによりクラスタ内で処理の負荷の分散が図られます。一つのリージョンのサイズが大きくなると自動的に分割され、複数ノードで負荷を分け合うように働きます。
- 強い一貫性: データの読み書きに関して「結果整合性」を重視した構造を持つNoSQLデータベースが多いのに対し、HBaseは「強い一貫性」を重視したアーキテクチャを持っています。これは一旦書き込みが完了したデータに対する読み込みは、すべて同じ値になることが保証されることを意味します。
では、HBaseを使用するのに適したシーンにはどのようなものがあるでしょうか?まず、前述の通りHBaseの大きな優位点は優れたスケーラビリティです。特に、多数のマシンやセンサーが生成するデータのように、高頻度で大量のデータの流入がある場合、HBaseはその受け皿として真価を発揮します。HBaseは安定した高い書き込み性能を持ち、クラスタノードを増やすことによりデータの増大にも比較的容易に対応することが可能です。
一方、HBaseはRDBMSにおけるSQLのような柔軟なクエリ実行手段は持たず、キーをもとにした値の書き込み、取得、スキャンを行うシンプルなAPIのみを提供しています。このため、性能を要求されるクエリに関しては、データの動的な結合や集計を必要としない、条件に合うデータの検索をメインとする処理に利用するのがよいでしょう。ただ、HBaseはHadoop基盤の一部として動作するため、Hadoopの様々なエコシステムプロジェクト(Hadoop上で動作する関連ソフトウェア群)を使用して、柔軟なデータの加工や転送を行うことも可能です。