データレイクを実現するHadoopソリューションの鍵「Isilon」
ビッグデータ時代の要請として、大量で多様なデータを満たす環境は「データレイク」と呼ばれている。多種多様な大容量のデータを統合管理できて、マルチプロトコルでアクセスできる……といった要件を満たすものだ。EMCではデータレイクはポートフォリオを組んで多種多様な製品を提供している。その中で三保氏は注目度の高い製品「Isilon」を取りあげた。
一般的にデータレイクの基盤にはHadoop(HDFS)が用いられる。集約したいデータは多様なデータ形式やプロトコルを使うため、ランディングゾーンと呼ばれるゲートウェイを通じてHadoop環境にとりいれる。データをコピーするため、データ量が増えればコピーの時間も長くなる。加えてデータ保護の観点から多重化したりするため、コピー量はさらに増える。現時点ではコピーにかかる時間が長時間に及んでしまうという課題がある。例えば100TBのデータをHadoopのクラスタに移行するとき、10GigEを用いてもおおよそ24時間かかる。
そこでIsilonが解決策となる。IsilonはマルチプロトコルのNASだ。「ネイティブでHDFSが話せるためHadoopと相性がいいです」と三保氏。また先述のXtremIOと同様にIsilonもスケールアウトのアーキテクチャを持っている。Hadoopのクラスタに近い。使えるプロトコルはHDFSのほか、SMB、NFS、HTTP、FTP、Swiftなど。
Isilonを用いたHadoopソリューションが注目されているのは現状の課題を解決するためだ。Isilonでデータレイクを構成する、つまり必要なデータをIsilonでデータを保有すればHadoop環境と直接通信できるため、そもそもHadoop環境にデータをコピーする必要がなくなる。
三保氏は「Isilonは複数のノードを提供できるため、複数のコンピュートノードがあってもLANのパスがボトルネックになりにくいのです」とメリットを話す。またIsilonはHadoopディストリビューションとHDFSで直接処理ができるため、複数のHadoopディストリビューションを用いているときその差を吸収できるのもメリットだ。「Hadoop」と一言で言っても、実際には複数のHadoopディストリビューションを使い分けている現場は多いため、Hadoop間でデータの移行やコピーに時間がかかるという課題を抱えている。
低遅延、大容量のラックスケールフラッシュ「DSSD」
EMC Worldでは昨年EMCが買収したフラッシュベンダー「DSSD」の開発機が初披露された。それまでDSSDは謎につつまれていたため注目を浴びた。まだ開発段階なので仕様は流動的ではあるものの、三保氏はポイントをいくつか紹介した。
「DSSDは『ラックスケールフラッシュ』であり、『ストレージ』とは言いません。なぜならプロトコルが従来のストレージのもの(ファイバーチャンネルやiSCSIなど)ではないからです。加えてオールフラッシュ構成、ラックスケールが特徴です」(三保氏)
EMC Worldで披露された開発機は5Uのユニットで、中央部分にフラッシュモジュール、上下にコントローラが挟むという形状をしていた。つまりマルチコントローラーだ。またSSDではなく専用のハードウェアを使用しており、最大で48台のクライアントが冗長化されたポートから接続できる。
三保氏によるとDSSDは「既存のストレージとは異なり、サーバーのPCIを拡張するイメージ」となる。PCIのスピードで接続できるため、通常のフラッシュ製品と比べてI/O遅延を桁違いに小さくできる。加えて36スロットあるため大容量が特徴だ。
なおDSSDは第3のプラットフォームを想定した製品である。サーバーからの接続方法は3通り。マウントしてブロックアクセスすることに加えて、アプリケーションから直接接続するようなAPIアクセスを可能としている。ライブラリはEMCから提供される予定。またHDFSのドライバ経由もあり、Hadoopからネイティブに接続できるとされている。
EMC WorldのデモではDSSDとDASで処理の比較をしたところ、DASでは30分かかる処理がDSSDでは30秒で終了したとのこと。接続方法が根本的に違うため、桁違いの高速化が期待できる。「フラッシュをREDEFINE(新定義)したのがDSSDと言えます」と三保氏。
既存のストレージ製品のアップデートも多く発表されたものの、近未来はフラッシュ製品が大きく席巻しそうな勢いだ。