SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

直近開催のイベントはこちら!

EnterpriseZine編集部ではイベントを随時開催しております

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けの講座「EnterpriseZine Academy」や、すべてのITパーソンに向けた「新エバンジェリスト養成講座」などの講座を企画しています。EnterpriseZine編集部ならではの切り口・企画・講師セレクトで、明日を担うIT人材の育成をミッションに展開しております。

お申し込み受付中!

NoSQLのHBaseでIoTシステムの構築のイメージをつかむ!

MapR SandboxのセットアップとHBaseはじめの一歩

 数あるNoSQLデータベースの中でもApache HBaseは、巨大なデータを扱うWeb系企業を中心に大規模なシステムの構築が進んでおり、エンタープライズ分野でも導入事例が増えてきています。特に、近年注目されているキーワードである「IoT」分野のシステムにおいて、収集したデータをデータセンター側で処理・格納する際の基盤として注目を集めています。HBaseは大規模分散処理基盤のHadoopの一部として構成されるソフトウェアであるため、HBase単体の機能だけではなく、Hadoop全体の機能を活用して、企業のさまざまな業務と連携したシステムの構築に利用することが可能です。本連載では、HBaseの全貌をより直感的に理解していただくために、開発・運用者の方が実際にソフトウェアを動かしながら設計方法や操作方法を把握していただけるように説明を進めていきます。

 第1回の記事では、HBaseをパッケージングしたHadoopディストリビューションの1つ、MapRが提供しているMapR SandboxというVMイメージを使用して、手元のPCでHBaseに触れてみることから始めます。

 次回以降では、データ構造の設計や、実際にログデータを格納してモニタリングを行うアプリケーションのサンプル、格納データに対するいろいろなアクセス方法なども説明していきたいと思います。

HBaseとは

 Apache HBaseはHadoopクラスタ上で動作するNoSQLデータベースです。RDBMSが持つACID (Atomicity, Consistency, Isolation, Durability)の属性を一部手放す代わりに、非常に高いスケーラビリティを持つことが特徴です。その他のHBaseの主な特徴を見ていきましょう。

  • 柔軟なスキーマ: HBaseに格納されるデータはRDBMSのように厳密なスキーマに必ずしも合わせる必要はありません。このため、非構造化データや準構造化データの格納に適しています。
  • ワイドカラム: HBaseはRDBMSのテーブルに似たフォーマットでデータを格納しますが、数百万カラム・数十億件もある巨大なデータを取り扱うことが可能です。カラムは「カラムファミリー」という単位でグループ分けをして取り扱うことで、行に含まれる値を格納する場所やアクセスを物理的に分散させることができ、効率が向上します。
  • 分散とスケーラビリティ: HBaseでは複数の行が「リージョン」という単位でまとめられます。テーブルは複数のリージョンに分割され、クラスタ内の複数ノードに配置されます。これによりクラスタ内で処理の負荷の分散が図られます。一つのリージョンのサイズが大きくなると自動的に分割され、複数ノードで負荷を分け合うように働きます。
  • 強い一貫性: データの読み書きに関して「結果整合性」を重視した構造を持つNoSQLデータベースが多いのに対し、HBaseは「強い一貫性」を重視したアーキテクチャを持っています。これは一旦書き込みが完了したデータに対する読み込みは、すべて同じ値になることが保証されることを意味します。

 では、HBaseを使用するのに適したシーンにはどのようなものがあるでしょうか?まず、前述の通りHBaseの大きな優位点は優れたスケーラビリティです。特に、多数のマシンやセンサーが生成するデータのように、高頻度で大量のデータの流入がある場合、HBaseはその受け皿として真価を発揮します。HBaseは安定した高い書き込み性能を持ち、クラスタノードを増やすことによりデータの増大にも比較的容易に対応することが可能です。

 一方、HBaseはRDBMSにおけるSQLのような柔軟なクエリ実行手段は持たず、キーをもとにした値の書き込み、取得、スキャンを行うシンプルなAPIのみを提供しています。このため、性能を要求されるクエリに関しては、データの動的な結合や集計を必要としない、条件に合うデータの検索をメインとする処理に利用するのがよいでしょう。ただ、HBaseはHadoop基盤の一部として動作するため、Hadoopの様々なエコシステムプロジェクト(Hadoop上で動作する関連ソフトウェア群)を使用して、柔軟なデータの加工や転送を行うことも可能です。

次のページ
MapR Sandboxのダウンロードと起動

この記事は参考になりましたか?

  • Facebook
  • Twitter
  • Pocket
  • note
NoSQLのHBaseでIoTシステムの構築のイメージをつかむ!連載記事一覧
この記事の著者

草薙 昭彦(クサナギ アキヒコ)

 マップアール・テクノロジーズ株式会社 Sun、EMCを経て、2013年よりMapRに入社。ハードウェアインフラ、DB、アプリ開発、分散システムの経験をもとに、現在はMapRのデータエンジニアとしてHadoopの導入支援と技術動向のウォッチに精を出す。Twitter: @nagix、ブログ: http://nagix.hatenablog.com

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

EnterpriseZine(エンタープライズジン)
https://enterprisezine.jp/article/detail/7185 2015/09/10 06:00

Job Board

AD

おすすめ

アクセスランキング

アクセスランキング

イベント

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング