EnterpriseZine(エンタープライズジン)

EnterpriseZine(エンタープライズジン)

テーマ別に探す

MapR SandboxのセットアップとHBaseはじめの一歩

edited by DB Online   2015/09/10 06:00

 数あるNoSQLデータベースの中でもApache HBaseは、巨大なデータを扱うWeb系企業を中心に大規模なシステムの構築が進んでおり、エンタープライズ分野でも導入事例が増えてきています。特に、近年注目されているキーワードである「IoT」分野のシステムにおいて、収集したデータをデータセンター側で処理・格納する際の基盤として注目を集めています。HBaseは大規模分散処理基盤のHadoopの一部として構成されるソフトウェアであるため、HBase単体の機能だけではなく、Hadoop全体の機能を活用して、企業のさまざまな業務と連携したシステムの構築に利用することが可能です。本連載では、HBaseの全貌をより直感的に理解していただくために、開発・運用者の方が実際にソフトウェアを動かしながら設計方法や操作方法を把握していただけるように説明を進めていきます。

 第1回の記事では、HBaseをパッケージングしたHadoopディストリビューションの1つ、MapRが提供しているMapR SandboxというVMイメージを使用して、手元のPCでHBaseに触れてみることから始めます。

 次回以降では、データ構造の設計や、実際にログデータを格納してモニタリングを行うアプリケーションのサンプル、格納データに対するいろいろなアクセス方法なども説明していきたいと思います。

HBaseとは

 Apache HBaseはHadoopクラスタ上で動作するNoSQLデータベースです。RDBMSが持つACID (Atomicity, Consistency, Isolation, Durability)の属性を一部手放す代わりに、非常に高いスケーラビリティを持つことが特徴です。その他のHBaseの主な特徴を見ていきましょう。

  • 柔軟なスキーマ: HBaseに格納されるデータはRDBMSのように厳密なスキーマに必ずしも合わせる必要はありません。このため、非構造化データや準構造化データの格納に適しています。
  • ワイドカラム: HBaseはRDBMSのテーブルに似たフォーマットでデータを格納しますが、数百万カラム・数十億件もある巨大なデータを取り扱うことが可能です。カラムは「カラムファミリー」という単位でグループ分けをして取り扱うことで、行に含まれる値を格納する場所やアクセスを物理的に分散させることができ、効率が向上します。
  • 分散とスケーラビリティ: HBaseでは複数の行が「リージョン」という単位でまとめられます。テーブルは複数のリージョンに分割され、クラスタ内の複数ノードに配置されます。これによりクラスタ内で処理の負荷の分散が図られます。一つのリージョンのサイズが大きくなると自動的に分割され、複数ノードで負荷を分け合うように働きます。
  • 強い一貫性: データの読み書きに関して「結果整合性」を重視した構造を持つNoSQLデータベースが多いのに対し、HBaseは「強い一貫性」を重視したアーキテクチャを持っています。これは一旦書き込みが完了したデータに対する読み込みは、すべて同じ値になることが保証されることを意味します。

 では、HBaseを使用するのに適したシーンにはどのようなものがあるでしょうか?まず、前述の通りHBaseの大きな優位点は優れたスケーラビリティです。特に、多数のマシンやセンサーが生成するデータのように、高頻度で大量のデータの流入がある場合、HBaseはその受け皿として真価を発揮します。HBaseは安定した高い書き込み性能を持ち、クラスタノードを増やすことによりデータの増大にも比較的容易に対応することが可能です。

 一方、HBaseはRDBMSにおけるSQLのような柔軟なクエリ実行手段は持たず、キーをもとにした値の書き込み、取得、スキャンを行うシンプルなAPIのみを提供しています。このため、性能を要求されるクエリに関しては、データの動的な結合や集計を必要としない、条件に合うデータの検索をメインとする処理に利用するのがよいでしょう。ただ、HBaseはHadoop基盤の一部として動作するため、Hadoopの様々なエコシステムプロジェクト(Hadoop上で動作する関連ソフトウェア群)を使用して、柔軟なデータの加工や転送を行うことも可能です。

※この続きは、会員の方のみお読みいただけます(登録無料)。


※この続きは、会員の方のみお読みいただけます(登録無料)。


著者プロフィール

  • 草薙 昭彦(クサナギ アキヒコ)

     マップアール・テクノロジーズ株式会社  Sun、EMCを経て、2013年よりMapRに入社。ハードウェアインフラ、DB、アプリ開発、分散システムの経験をもとに、現在はMapRのデータエンジニアとしてHadoopの導入支援と技術動向のウォッチに精を出す。Twitter: @nagix、ブログ: http://nagix.hatenablog.com

バックナンバー

連載:NoSQLのHBaseでIoTシステムの構築のイメージをつかむ!
All contents copyright © 2007-2021 Shoeisha Co., Ltd. All rights reserved. ver.1.5