Data Domainだけが実現できるインラインでのリアルタイム重複排除
それではいったいEMCの重複排除は、どのようなポイントが評価されているのだろうか。その1つとして挙げられるのは、重複排除ストレージであるEMC Data Domainの重複排除の仕組みがきわめて高い効率性を持っていることだと、EMCジャパン BRS事業本部 システムズ・エンジニアリング部 シニア・システムズ・エンジニアの志間義治氏は言う。
他の重複排除の多くが固定長ブロック単位で重複を排除するのに対し、Data Domainでは可変長ブロックとなっている。たとえばデータベースの処理で、データのインサートやアップデートが行われる際、更新データが元のデータとサイズが異なれば、ブロックのサイズが合わなくなり変更されたデータブロックだけでなくその後に続くデータブロックも辻褄が合うところまで変更されることになる。つまり、変更されるブロックが増えてしまうのだ。
これに対し可変長であれば、仮に更新データのサイズが元とは異なっても変更するのは対象のデータブロックだけで済む。結果的には、変更のない重複ブロック数が多くなり、より効率的に重複排除が行えるのだ。
もう1つの特長が、重複排除をインライン処理できる高い性能が挙げられる。Data Domainでは、特許を取得しているSISL(Stream-Informed Segment Layout)という独自アーキテクチャが採用されている。これは、重複しているかどうかの判断を演算で行うもので、その処理をストレージ上ではなく、メモリ上で3bitのフラグ位置の確認というシンプルな方法で実現している。ストレージIOを介さず、CPUの処理とメモリ上のデータアクセスだけで行えるので、高速な処理が可能なのだ。
さらに、次に来るであろうデータを予測し、あらかじめメモリに載せておくプリフェッチ機能もこれに組み合わされている。これら2つにより、インラインでのリアルタイムな重複排除が可能となる。
「他の多くの重複排除ソリューションでは、いったんディスク上にデータを格納し、そのデータに対しバックグラウンド処理などで重複排除を行います。この方法では、ディスクに重複排除前のデータを格納できる領域が必要になり、ディスクを介すので重複排除にも時間がかかります。これに対し、データを取り込む際にリアルタイムに重複排除できるのは、Data Domainだけです。」(志間氏)