The Beast(野獣)の勢い、オールフラッシュ「XtremIO」
EMCが「野獣」と呼ぶ製品がある。SSDだけで構成したオールフラッシュストレージの「XtremIO」だ。主に第2のプラットフォームでの導入を想定した製品だ。実存するシステムを支え、高い性能を実現する。
一般的に製品が広く普及するには時間がかかる。年間契約10億ドル(1200億円)に到達するまで、VMwareは5年、Data Domainは6~7年かかった。しかしXtremIOは2年程度でここにたどり着いた。猪突猛進とも言える勢いだ。EMCが自社製品を「野獣」と呼ぶのはこの急成長ぶりもある。しかし真の野獣ぶりは製品の驚異的な容量や性能にある。
XtremIOではX-Brick(ノード)が1つの基本的な単位となっており、これを追加してスケールアウトするアーキテクチャとなっている。EMC Worldで発表された最新のXtremIO 4.0では40TBモデルが発表された。1つのキャビネットに最大で8つのX-Brickまで積めるため、最大で320TBとなる。
さらにXtremIOではインライン重複排除がある。メモリ上で重複を排除したうえでフラッシュに書き込むため、6倍ほどの圧縮率となる。実質的には320TBの6倍で1920TB、つまり2PB級のオールフラッシュストレージとなる。フラッシュのイメージを超越する容量だ。
性能もまた驚異的。X-Brickあたり読み込みで25万 IOPS、読み込みと書き込みで15万 IOPSを実現する。X-Brickを追加すればその分だけリニアにスケールする。つまり最大8倍となる。
EMCジャパン株式会社 システムエンジニアリング本部 プリンシパル・システムズエンジニア 三保 尚澄氏は「それよりもレイテンシー(遅延)に注目してください。一般的にはIOPSが上がるとレイテンシーは大きくなってきます。しかしXtremIOでは常に1ms以下です。ここがXtremIOの性能的な特徴です」と強調する。XtremIOではガベージコレクション処理を不要とする処理としているため、性能劣化をもたらすことがないためだ。
ほかにもXtremIO 4.0ではオンラインX-Brick拡張が可能、Recover Pointとの連携機能、スナップショット機能強化など、さらなる進化が見られる。
「用途で見ると、2013年はVDI(デスクトップ仮想化)が7割を占めていましたが、2014年にはデータベースが過半数となるなど変化が見られます。またリピート率が年々増えており、2015年第1四半期では5割を超えました」(三保氏)
データレイクを実現するHadoopソリューションの鍵「Isilon」
ビッグデータ時代の要請として、大量で多様なデータを満たす環境は「データレイク」と呼ばれている。多種多様な大容量のデータを統合管理できて、マルチプロトコルでアクセスできる……といった要件を満たすものだ。EMCではデータレイクはポートフォリオを組んで多種多様な製品を提供している。その中で三保氏は注目度の高い製品「Isilon」を取りあげた。
一般的にデータレイクの基盤にはHadoop(HDFS)が用いられる。集約したいデータは多様なデータ形式やプロトコルを使うため、ランディングゾーンと呼ばれるゲートウェイを通じてHadoop環境にとりいれる。データをコピーするため、データ量が増えればコピーの時間も長くなる。加えてデータ保護の観点から多重化したりするため、コピー量はさらに増える。現時点ではコピーにかかる時間が長時間に及んでしまうという課題がある。例えば100TBのデータをHadoopのクラスタに移行するとき、10GigEを用いてもおおよそ24時間かかる。
そこでIsilonが解決策となる。IsilonはマルチプロトコルのNASだ。「ネイティブでHDFSが話せるためHadoopと相性がいいです」と三保氏。また先述のXtremIOと同様にIsilonもスケールアウトのアーキテクチャを持っている。Hadoopのクラスタに近い。使えるプロトコルはHDFSのほか、SMB、NFS、HTTP、FTP、Swiftなど。
Isilonを用いたHadoopソリューションが注目されているのは現状の課題を解決するためだ。Isilonでデータレイクを構成する、つまり必要なデータをIsilonでデータを保有すればHadoop環境と直接通信できるため、そもそもHadoop環境にデータをコピーする必要がなくなる。
三保氏は「Isilonは複数のノードを提供できるため、複数のコンピュートノードがあってもLANのパスがボトルネックになりにくいのです」とメリットを話す。またIsilonはHadoopディストリビューションとHDFSで直接処理ができるため、複数のHadoopディストリビューションを用いているときその差を吸収できるのもメリットだ。「Hadoop」と一言で言っても、実際には複数のHadoopディストリビューションを使い分けている現場は多いため、Hadoop間でデータの移行やコピーに時間がかかるという課題を抱えている。
低遅延、大容量のラックスケールフラッシュ「DSSD」
EMC Worldでは昨年EMCが買収したフラッシュベンダー「DSSD」の開発機が初披露された。それまでDSSDは謎につつまれていたため注目を浴びた。まだ開発段階なので仕様は流動的ではあるものの、三保氏はポイントをいくつか紹介した。
「DSSDは『ラックスケールフラッシュ』であり、『ストレージ』とは言いません。なぜならプロトコルが従来のストレージのもの(ファイバーチャンネルやiSCSIなど)ではないからです。加えてオールフラッシュ構成、ラックスケールが特徴です」(三保氏)
EMC Worldで披露された開発機は5Uのユニットで、中央部分にフラッシュモジュール、上下にコントローラが挟むという形状をしていた。つまりマルチコントローラーだ。またSSDではなく専用のハードウェアを使用しており、最大で48台のクライアントが冗長化されたポートから接続できる。
三保氏によるとDSSDは「既存のストレージとは異なり、サーバーのPCIを拡張するイメージ」となる。PCIのスピードで接続できるため、通常のフラッシュ製品と比べてI/O遅延を桁違いに小さくできる。加えて36スロットあるため大容量が特徴だ。
なおDSSDは第3のプラットフォームを想定した製品である。サーバーからの接続方法は3通り。マウントしてブロックアクセスすることに加えて、アプリケーションから直接接続するようなAPIアクセスを可能としている。ライブラリはEMCから提供される予定。またHDFSのドライバ経由もあり、Hadoopからネイティブに接続できるとされている。
EMC WorldのデモではDSSDとDASで処理の比較をしたところ、DASでは30分かかる処理がDSSDでは30秒で終了したとのこと。接続方法が根本的に違うため、桁違いの高速化が期待できる。「フラッシュをREDEFINE(新定義)したのがDSSDと言えます」と三保氏。
既存のストレージ製品のアップデートも多く発表されたものの、近未来はフラッシュ製品が大きく席巻しそうな勢いだ。