Data Domainの信頼性の高さ、重複排除のアーキテクチャ
DDはデータを高い信頼性で保護できるアーキテクチャになっている。チェックサムの生成、重複排除、ディスクへの書き込みなどデータ保護の全てのサイクルでデータの整合性を確認して信頼性を高めている。また不要になったデータのクリーニングやデフラグを実行し、自己修復できるファイルシステムを持つ。
そしてDDの強みであり大きな特徴となるのが重複排除。検証や分析用などにコピーを作成しても、データが重複していればストレージの物理的な容量を使わずにすむ。データベースのテーブルをコピーすれば、コピー直後なら内容は全く同じなので物理的な空き容量は変わらないということだ。この重複排除は他社製品でも実装されているものの、DDだとさらに効率が高い。より効率よく重複排除ができるということだ。
違いは重複排除のブロックの長さ。他社製品だと固定長ブロックで重複排除し、DDだと可変長ブロックで重複排除をするため効率がいい。言い換えると、より効率よく重複している範囲を見つけやすいということだ。
処理性能を高める機能としてData Domain Boost(DD Boost)がある。これはサーバーリソースを効率的に活用して処理を分散する。アプリケーションサーバー側で重複排除をして、DDに転送するデータ量を減らすことができる。ネットワークの帯域を削減できて、最大50%ほどバックアップ処理が高速化できる。ある顧客の事例では、25時間かかっていたバックアップ時間をDD Boostを用いた場合には4時間に短縮できたという(初回は5時間)。
DDは企業で多く使われているアプリケーションのネイティブツールに対応しているため、利便性も高い。例えばOracle DatabaseのRMANやMicrosoft SQL ServerのManagement StudioやMicrosoft ExchangeのPowerShellなどと連携できる。アプリケーションのオーナーがデータ保護の制御がしやすくなり、確実性や安心感を高める。
Premkumar氏はいくつかデモを示した。まずはOracle DatabaseでおなじみのRMANからのバックアップ。8.8GBのデータを初回フルバックアップすると、DDに送られるデータは2.7GB。これは初回フルバックアップなので重複排除がないものの、データの圧縮がかかり元データの約1/3となる2.7GBになる。もう一度同じデータをバックアップすると、完全に同じで重複しているため処理はあっという間に終わり、DD側のストレージで新たに消費する分はない。RMANを見ると、バックアップ処理の履歴がきちんと確認できる。
Oracle Databaseであれば、スタンドアロンで用いるOracle Databaseはもちろん、RAC(Real Application Clusters)構成、Oracle Data Guard、Oracle ExadataにもDD Boostは対応している。
SQL Serverからも同様にフルバックアップと2度目のバックアップを示した。加えて操作ミスで削除してしまったというシナリオで、特定のテーブルをバックアップから復旧してみせた。
運用上はバックアップのオプションに気をつけておいたほうがいいだろう。セキュリティなどの理由からアプリケーションでデータの圧縮や暗号化をかけることがあるものの、DDの重複排除には不利になる。データを暗号化してしまうと本当は重複したデータでも重複したデータとならなくなってしまうためだ。Premkumar氏は「DDを使うならアプリケーションで圧縮と暗号化をかけないことをおすすめします。そのほうが最も早く処理ができます」と補足した。
データを長期保存する時にもDDは有利だ。いまバックアップすべきデータは多く、長期間保存していく必要も高まり、多くのストレージを必要としている。保存のためのコストも課題となっているため、クラウドサービスのオブジェクトストレージを用いるケースも増えてきている。DDはそうした背景も考慮したアーキテクチャになっている。
DDには内部にActive TierとCloud Tierを持つ。Active Tierで重複排除した効率的なデータ保管をしつつ、最小限のユニークなデータのみをクラウドへ送信するようになっている。そのためクラウドのストレージを必要最小限に抑えるようにできている。またクラウドのストレージだと、ダウンロードのほうがコストがかかることが多い。そのため、クラウドにあるデータをDDに戻す場合にはActive Tierにはないデータのみをダウンロードするため、クラウドサービスの課金を最小限に抑えられるようになっている。処理としても課金としても効率よくバックアップもリストアもできる。