Shoeisha Technology Media

EnterpriseZine(エンタープライズジン)

EnterpriseZine(エンタープライズジン)

テーマ別に探す

Hadoopディストリビュータ MapRはどうやってHDFSの弱点を克復したのか?

edited by DB Online   2014/06/03 13:00

Hadoop上でもっとも使われているHBaseをMapRに取り込んだM7

岡 昌孝氏
岡 昌孝氏

 もう1つ興味深いのが、MapRのM7と名付けられた製品だ。これは、エコシステムのアプリケーションの1つであるHBaseをMapRに統合化したものだ。「米国ではHadoopを利用している4割ほどのユーザーがHBaseを使っていると言われています。しかしながら、この組み合わせの運用は難しいという現実があります」とマップアール・テクノロジーズ ソリューション・アーキテクトの岡 昌孝氏は言う。

 MapRのHadoopディストリビューションであるM5は、前述のとおりApache Hadoopとの100%の互換性がある。なのでこの上にHBaseを導入し運用することはもちろんできる。とはいえ、この組み合わせだとせっかくファイルシステムのところでJavaレイヤーをなくしたのに、HBaseとファイルシステムの間に再びJavaレイヤーが必要になってしまう。そこでMapRでは、ファイルシステムの中にHBaseで利用するテーブルの機能を取り入れた。これにより、HBaseの機能がMapRファイルシステムの上で直接利用できるようになったのだ。

 「HDFSは、そもそもランダムリード/ライトが苦手なファイルシステムです。HBaseは、その上で無理矢理データベースの処理をしようとしています」と岡氏。そのためデータはメモリー上でなるべく処理し、メモリーがいっぱいになるとディスクに非同期で書き出すようになっている。書き出されたデータは、ディスク上の連続した領域にデータをまとめるために、コンパクションと呼ばれる処理を実行する。このコンパクションの処理は負荷も大きく「場合によっては数時間もかかることがあります」とのこと。つまり、Hadoop上でHBaseの機能を使いたいが、実際の運用ではコンパクションが発生するなどでかなり使いづらい環境となってしまうのだ。

 これがMapRのM7ならば、ファイルシステムがそもそもランダムリード/ライトに対応しているので、コンパクションは必要ない。Javaレイヤーもないので、ガベージコレクションの心配もない。さらに、スナップショットやミラーリング、ボリュームの設定など、MapRファイルシステムならではのメリットもそのまま享受できる。

 この他にもHPの列指向データベースである「Vertica」との連携も興味深い。MapRのファイルシステム上にVerticaのデータを格納し、2つを同じクラスターノードで同時に動かすことができるようにしたのだ。「Hadoopの中に数10テラバイトのデータがありそれをデータウェアハウスで分析に利用したい。その際にも、数10テラバイトものデータのフォーマットを変更したりデータを移動したりという処理は非常に時間もリソースもかかるが、この連携ソリューションではそれを最小化できます」と草薙氏は言う。これが実現できるのも、Hadoopのファイルシステムを作り替えNFSで利用できるようにしたためであり、それにより新しいHadoopの世界とデータウェアハウスのような従来のシステムの密なる連携を容易に可能としたのだ。

ネームノード実装比較
ネームノード実装比較

 Hadoopを企業が利用する際には、運用を楽にするための管理ツールが必要だと言われている。もちろん便利な管理ツールの存在は重要だ。MapRにもそれはある。しかし、管理ツールだけで運用が楽になるものではない。アーキテクチャそのものを、企業ユースに耐えられるものに進化させる。そうすることで、さまざまなシステムが混在する企業の環境でも容易にHadoopを運用できるようにする。それを実現しているのが、MapRという独自のディストリビューションのアーキテクチャと言うわけだ。

MapRも講演、データサイエンティストサミット2014開催!

6月27日(金) 会場:秋葉原コンベンションホール、Hadoop、データ分析事例など
参加無料。登録・申込はこちら



著者プロフィール

  • 谷川 耕一(タニカワ コウイチ)

    EnterpriseZine/DB Online チーフキュレーター かつてAI、エキスパートシステムが流行っていたころに、開発エンジニアとしてIT業界に。その後UNIXの専門雑誌の編集者を経て、外資系ソフトウェアベンダーの製品マーケティング、広告、広報などの業務を経験。現在はフリーランスのITジャーナリストとして、クラウド、データベース、ビッグデータ活用などをキーワードに、エンタープライズIT関連の取材、執筆を行っている。

バックナンバー

連載:DB Press

もっと読む

All contents copyright © 2007-2020 Shoeisha Co., Ltd. All rights reserved. ver.1.5