Enterprise ReadyなHadoop、それがGreenplum HD
EMCジャパンは同日、それまで限定的に提供していた同社の「Greenplum HD Enterprise Edition」の販売開始を発表している。
Apache Hadoopと100%の互換性を有しながらも、Apache版と比較して2~5倍の高速性と運用の容易性を実現し、単一障害点(singlepoint of failure)を完全に排した"Enterprise Ready"なHadoopディストリビューションだと仲田氏は強調する。
「Apache Hadoopはまだソフトウェアとしての歴史が浅く、未成熟な部分も多い。エンタープライズ分野で企業がミドルウェアに期待する部分とオープンソースの間にあるギャップを埋める、それがGreenplum HDの役割」(仲田氏)
Greenplum HD EEは、Javaで書かれたHDFSをC言語で書き換えたMapR FSを採用しているが、それだけではなく「完全にリアーキテクトした製品」(仲田氏)だ。ハードウェアの限界性能を引き出すため、ロック排除による並列処理の向上、ビルトイン圧縮によるI/O削減、分散NameNode、RPC経由のShuffle転送、そしてガベージコレクションの影響の排除を実現している。
「MapReduceのShuffle処理をダイレクトにしたのでパイプラインが途切れない、そしてコンカレンシーが落ちない。論理的な弱点である単一障害点をマルチノードにしたことで、アベイラビリティとパフォーマンスの両方を大幅に向上することが可能になった。これは大企業が重要なアプリケーションを動かす上で必要な機能」(仲田氏)
また、エンタープライズでHadoopを運用していくには他の業務システムとの連携のしやすさも重要だと仲田氏は語る。
「Hadoopを単独で運用しているという企業はほとんどない。Greenplum HDはNFSマウントができるので、Webのログを直接Hadoopに書きこむことも可能。また、Apache Hadoopにはないスナップショットを取れる機能も重要。これにより差分のみを格納していくことができる。Webベースの管理ツールを用意しているのでクラスタの稼働状況を瞬時に把握できる。運用のトータルコストでいえば、OSSよりも上かもしれない」(仲田氏)