「Apache Hadoopでは満たせないエンタープライズのニーズをGreenplum HDとAsakusa Frameworkが提供する 」―1月19日、EMCジャパンとノーチラス・テクノロジーズの協業発表記者会見でEMCジャパン データコンピューティング事業本部 テクノロジー&プロフェッショナルサービス部 部長 仲田聡氏はこう語った。ビッグデータブームを支えるメインテクノロジとして語られることが多いHadoopだが、今回の両者の提携は基幹業務におけるバッチ処理でHadoopを有効活用したいというエンタープライズの要望に応えるもの。ビッグデータ分析のためのHadoop活用とは趣を異にする今回の発表だが、その目指すところはどこにあるのだろうか。
Enterprise ReadyなHadoop、それがGreenplum HD

データコンピューティング事業本部
テクノロジー&プロフェッショナルサービス部
部長 仲田聡氏
EMCジャパンは同日、それまで限定的に提供していた同社の「Greenplum HD Enterprise Edition」の販売開始を発表している。
Apache Hadoopと100%の互換性を有しながらも、Apache版と比較して2~5倍の高速性と運用の容易性を実現し、単一障害点(singlepoint of failure)を完全に排した"Enterprise Ready"なHadoopディストリビューションだと仲田氏は強調する。
「Apache Hadoopはまだソフトウェアとしての歴史が浅く、未成熟な部分も多い。エンタープライズ分野で企業がミドルウェアに期待する部分とオープンソースの間にあるギャップを埋める、それがGreenplum HDの役割」(仲田氏)
Greenplum HD EEは、Javaで書かれたHDFSをC言語で書き換えたMapR FSを採用しているが、それだけではなく「完全にリアーキテクトした製品」(仲田氏)だ。ハードウェアの限界性能を引き出すため、ロック排除による並列処理の向上、ビルトイン圧縮によるI/O削減、分散NameNode、RPC経由のShuffle転送、そしてガベージコレクションの影響の排除を実現している。
「MapReduceのShuffle処理をダイレクトにしたのでパイプラインが途切れない、そしてコンカレンシーが落ちない。論理的な弱点である単一障害点をマルチノードにしたことで、アベイラビリティとパフォーマンスの両方を大幅に向上することが可能になった。これは大企業が重要なアプリケーションを動かす上で必要な機能」(仲田氏)
また、エンタープライズでHadoopを運用していくには他の業務システムとの連携のしやすさも重要だと仲田氏は語る。
「Hadoopを単独で運用しているという企業はほとんどない。Greenplum HDはNFSマウントができるので、Webのログを直接Hadoopに書きこむことも可能。また、Apache Hadoopにはないスナップショットを取れる機能も重要。これにより差分のみを格納していくことができる。Webベースの管理ツールを用意しているのでクラスタの稼働状況を瞬時に把握できる。運用のトータルコストでいえば、OSSよりも上かもしれない」(仲田氏)
この記事は参考になりましたか?
- この記事の著者
-
五味明子(ゴミ アキコ)
IT系出版社で編集者としてキャリアを積んだのち、2011年からフリーランスライターとして活動中。フィールドワークはオープンソース、クラウドコンピューティング、データアナリティクスなどエンタープライズITが中心で海外カンファレンスの取材が多い。
Twitter(@g3akk)や自身のブログでITニュース...※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
この記事は参考になりましたか?
この記事をシェア