Title:データベースのデータ保護~Dell EMC Data Base Master Class
Speaker:Prem (Trichy) Premkumar(Principal Systems Engineer, Dell EMC)
いまアプリケーションのバックアップは誰が、どのくらいの手間をかけてやっているだろうか。2016年に発表されたガートナーの予測によると、2018年までにビジネスやアプリケーションオーナーの70%がより自分自身で制御できるデータ保護サービスを使えるようになるという。バックアップはよりセルフサービス的なタスクになるということだが、それには手軽に扱えることのほか、信頼性や効率性も不可欠だ。
現状のバックアップの実情としてDell EMCのPremkumar氏は「管理者はバックアップのデータを(バックアップ専用のサーバーではなく)ローカルなどに保存することがあります」と指摘する。作業が確実にできているか、きちんとリストアできるデータであるか心配というのが背景にある。つまり、バックアップツールの利便性、履歴の可視性、効率性などに課題がありそうだ。
Premkumar氏は「Dell EMCのData Domain(以下、DD)なら、きちんと作業履歴が確認できて、高い効率性があります」と胸を張る。DDの大きな特徴として信頼性と効率性の高さがある。高い信頼性を持ち、確実にバックアップとリカバリーができるほか、効率性も高い。これは重複排除の効率が高いのと、サーバーリソースの使い方も効率がいいため。拡張性や性能を高めることにも寄与している。そしてデータベースやアプリケーションが持つネイティブのバックアップツールとシームレスに統合できているため、作業的な効率も高くなる。
実際に実績も業界随一だ。2017年にIDCが発表したバックアップアプライアンスの世界シェアでもDell EMCは市場の半分以上のシェアを占めている、という。
またDDでは小規模から大規模まで幅広く対応しており、支持される理由の一つと言えそうだ。エントリーモデルのDD2200はコンパクトな2Uで最大860TBの論理容量があり、大規模向けアプライアンスのDD9800ではクラウドストレージとの連携により最大150PBの論理容量まで拡張できる。ほかにもハードウェアではなく仮想版(ソフトウェアタイプ)もある。
Data Domainの信頼性の高さ、重複排除のアーキテクチャ
DDはデータを高い信頼性で保護できるアーキテクチャになっている。チェックサムの生成、重複排除、ディスクへの書き込みなどデータ保護の全てのサイクルでデータの整合性を確認して信頼性を高めている。また不要になったデータのクリーニングやデフラグを実行し、自己修復できるファイルシステムを持つ。
そしてDDの強みであり大きな特徴となるのが重複排除。検証や分析用などにコピーを作成しても、データが重複していればストレージの物理的な容量を使わずにすむ。データベースのテーブルをコピーすれば、コピー直後なら内容は全く同じなので物理的な空き容量は変わらないということだ。この重複排除は他社製品でも実装されているものの、DDだとさらに効率が高い。より効率よく重複排除ができるということだ。
違いは重複排除のブロックの長さ。他社製品だと固定長ブロックで重複排除し、DDだと可変長ブロックで重複排除をするため効率がいい。言い換えると、より効率よく重複している範囲を見つけやすいということだ。
処理性能を高める機能としてData Domain Boost(DD Boost)がある。これはサーバーリソースを効率的に活用して処理を分散する。アプリケーションサーバー側で重複排除をして、DDに転送するデータ量を減らすことができる。ネットワークの帯域を削減できて、最大50%ほどバックアップ処理が高速化できる。ある顧客の事例では、25時間かかっていたバックアップ時間をDD Boostを用いた場合には4時間に短縮できたという(初回は5時間)。
DDは企業で多く使われているアプリケーションのネイティブツールに対応しているため、利便性も高い。例えばOracle DatabaseのRMANやMicrosoft SQL ServerのManagement StudioやMicrosoft ExchangeのPowerShellなどと連携できる。アプリケーションのオーナーがデータ保護の制御がしやすくなり、確実性や安心感を高める。
Premkumar氏はいくつかデモを示した。まずはOracle DatabaseでおなじみのRMANからのバックアップ。8.8GBのデータを初回フルバックアップすると、DDに送られるデータは2.7GB。これは初回フルバックアップなので重複排除がないものの、データの圧縮がかかり元データの約1/3となる2.7GBになる。もう一度同じデータをバックアップすると、完全に同じで重複しているため処理はあっという間に終わり、DD側のストレージで新たに消費する分はない。RMANを見ると、バックアップ処理の履歴がきちんと確認できる。
Oracle Databaseであれば、スタンドアロンで用いるOracle Databaseはもちろん、RAC(Real Application Clusters)構成、Oracle Data Guard、Oracle ExadataにもDD Boostは対応している。
SQL Serverからも同様にフルバックアップと2度目のバックアップを示した。加えて操作ミスで削除してしまったというシナリオで、特定のテーブルをバックアップから復旧してみせた。
運用上はバックアップのオプションに気をつけておいたほうがいいだろう。セキュリティなどの理由からアプリケーションでデータの圧縮や暗号化をかけることがあるものの、DDの重複排除には不利になる。データを暗号化してしまうと本当は重複したデータでも重複したデータとならなくなってしまうためだ。Premkumar氏は「DDを使うならアプリケーションで圧縮と暗号化をかけないことをおすすめします。そのほうが最も早く処理ができます」と補足した。
データを長期保存する時にもDDは有利だ。いまバックアップすべきデータは多く、長期間保存していく必要も高まり、多くのストレージを必要としている。保存のためのコストも課題となっているため、クラウドサービスのオブジェクトストレージを用いるケースも増えてきている。DDはそうした背景も考慮したアーキテクチャになっている。
DDには内部にActive TierとCloud Tierを持つ。Active Tierで重複排除した効率的なデータ保管をしつつ、最小限のユニークなデータのみをクラウドへ送信するようになっている。そのためクラウドのストレージを必要最小限に抑えるようにできている。またクラウドのストレージだと、ダウンロードのほうがコストがかかることが多い。そのため、クラウドにあるデータをDDに戻す場合にはActive Tierにはないデータのみをダウンロードするため、クラウドサービスの課金を最小限に抑えられるようになっている。処理としても課金としても効率よくバックアップもリストアもできる。
これからのデータベースもみすえて
最後にDDの将来性はどうだろうか。Premkumar氏は「Dell EMCは将来のバックアップ課題にも対応できるように考えています」と述べる。
今後のバックアップで課題となりそうなのがデータ量増加への対応と、新しいデータベースやツールへの対応だ。まず前者には大量のバックアップ処理を高速化する「ProtectPoint」というテクノロジーがある。
例えばデータ量が多すぎてバックアップ処理に1日以上かかると、毎日バックアップすることは現実的に不可能だ。しかしバックアップ処理が高速化できれば可能となる。ある事例では250TBのバックアップをDDのProtectPointを用いることで初回のフルバックアップが22時間、2日分の差分は1時間以内ですませることができた。
なおProtectPointはストレージと密連携したデータ保護機能のため、現時点ではVMAX3、VMAX All Flash、XtremIOのみ利用可能だ。アプリケーションのネイティブツールも透過的に使えるなど使い勝手は抜群だ。
もう1つ、新しいツールへの対応はどうか。Premkumar氏は「これまで50年ほど、データベースは進化してきました。DDはほとんどのデータベースに対応しています」と述べる。先述したように企業で用いられる主要なアプリケーションなら多くがネイティブツールと連携できるようになっている。
問題は新しいツールだ。近年ではNoSQLなど新しいタイプのデータベースが次々と登場しており、「新しいツールだと(今後製品として生き残るかどうかという問題もあるが)、運用面で見るとまだバックアップの手段がないものも少なくありません」と指摘する。現状では「BoostFS」というDD Boostのプラグインがあり、これを用いれば新しいタイプのツールでもバックアップが可能になる。
最後にPremkumar氏は「DDには比類なき効率性があります。主要なアプリケーションのネイティブツールとも連携できるのも大きな特徴です。将来の備えも万全です」と述べてData Domainの有効性を強調した。