ITシステムは従来型から次世代型へと転換しつつある。それはデータ保護にもあてはまる。従来型のITシステムではデータをバックアップし、テープなどアーカイブ用のストレージへと移して保管するのが定石だった。
バックアップで重要な技術として挙げておくべきなのがData Domainの重複排除。飯野氏は「バックアップの世界を変えました」と話す。もともとは2005年にData Domainが発表した技術であり、特許も取得したもの(後にEMCが買収)。
データロス経験は5割、データ復旧に完全な自信はあるか?
まずは日本におけるデータ保護の現状について目を向けよう。EMCは第三者機関を通じてデータ保護に関するグローバルな調査を実施し、その結果を「Data Protection Index」として2015年1月に発表した(調査は2014年実施)。
調査からは障害における損害コストは合計で4.95兆円、障害を経験した割合は約5割、平均ダウンタイムは19時間など、従来型に依存したデータ保護の実情が明らかになった。この中から飯野氏は「データ復旧に対する自信」について採りあげた。「データロスが発生した場合、すべてのプラットフォーム(オンプレとオフプレ両方)についてSLA(サービスレベル契約)に準じた形でシステム/データを完全復旧できる自信はありますか」という設問に対して91%が「ない」と回答したという。データ復旧に完全の自信を持つ企業はかなり少ないということだ。
また実際に「データロス」を経験した企業(約5割)にデータ保護に関するソフトウェアベンダーをいくつ利用しているかを質問したところ、利用するベンダー数が多いほどデータロスを経験した割合が高くなるという結果が出た。3社以上のベンダーを利用している企業の約1/3がデータロスを経験している。複数のベンダーを使うというのは、例えばインフラのレイヤとアプリケーションのレイヤなど、複数のデータ保護製品を使い分けているということ。その複雑性がかえってコミュニケーションミスや保護されない「死角」のようなものを生んでしまい、データロスを発生させていると考えられる。安全性を高めようと複数のツールを使うと、かえってリスクを高めてしまうこともあるようだ。
飯野氏は求められる姿として「より多くのデータを保護できること、データの所有者が操作可能なようにセルフサービス型であること、(アプリケーションの管理ツールなど)使い慣れたツールで操作可能なこと」を挙げた。
この新しいアプローチを具現化しているのがEMCの「DATA PROTECTION SUITE FOR APPLICATIONS」。特徴はアプリケーション管理者の利便性を損なわないような配慮がある。例えばオラクルのRMAN(Recovery Manager)やSAPのHANA Studioなど、アプリケーション標準ツールのプラグインという形で機能するため、アプリケーションに与える影響は少なく操作もしやすい。飯野氏は「コストと複雑性を最適化します」とポイントを強調した。
コピーデータが増加し、かかるコストは2018年には5兆円に
データのバックアップに関して、飯野氏は「2018年コピーデータ問題」を挙げた。本番で使うデータをマスタデータとすると、その複製がコピーデータ。IDCの調査によると、コピーデータは年々増加し2018年にはデータ保護にかかるコストは5兆円になると予測されている。
コピーデータは保護目的のスナップショット、レプリケーション、バックアップだけではなく、テストや開発用、さらに近年では統計や分析用にデータウェアハウスへコピーされるデータもある。同調査によると82%の企業が1個のマスタに対して10個以上のコピーを持つという。
マスタデータに対してコピーデータはサービスレベルが異なるため、かかるコストは単純にコピーした分の倍数にはならないものの、マスタデータの6割ほどにも上ると言われている。さらにマスタデータは年率4割で増加するという調査結果もある。年率4割で増加するマスタデータに、そのコストの6割をコピーデータに費やすから、コストはどんどん膨れ上がる。2018年には5兆円に到達するというわけだ。
加えて飯野氏は「統制面での問題」を指摘する。アプリケーションやインフラの複雑化と、コピーデータの増加により企業内のデータは統制が取れなくなりがちだ。そこでは様々な問題が発生しうる。例えば「システムの重要度に合わせたSLA(サービス品質)になっていない」、「バックアップのスループットがでないときのボトルネックがどこにあるか分からない」、「必要なデータを入手するのにシステム的、組織的な手続きが複雑で時間がかかる」などだ。
「こんな事例がありました」と飯野氏は言う。ある企業は定期的にバックアップを実施していたものの、ジョブが正常終了したかどうかしか確認していなかった。そのためバックアップに欠損があったことに気づかず、リストアしたら欠損していた分がマスタデータから失われてしまったという。バックアップにはこんな落とし穴もある。
こうした背景をうけ、EMC World 2016でEMCはコピーデータ問題を解決するためのデータ管理ソリューションを提言した。ポイントとしては2つ。まず1つはインフラ効率の最適化。コピーデータを適切な数にすること、適切な場所に配置することだ。もう1つはオペレーションの適正化。コピーデータ全体を見渡せるように透過的なビューを提供することと、使い慣れた標準ツールで操作ができるようにネイティブの技術を使うこと。これら2つを実施することで「企業における適切なサービスレベルを達成できます」と飯野氏は言う。
具体的な製品となるのが「Enterprise Copy Data Management(以下、eCDM)」。飯野氏は「コピーデータは全体で管理するように発想を変えましょう」と提言する。主要な機能は「発見」、「自動化」、「最適化」、「再利用」の4つ。
発見
どこにどのコピーデータがあるかマッピングして全体を把握できるようにする。例えばVMAXの中にスナップショットがいくつあり、ほかのサーバーにいくつ分散させているかを図で表示する。
自動化
サービスレベルに応じて制御方法を定義し、実施を自動化する。例えば災害対策のためのコピーデータは厳重に保護する、あまり重要度が高くないものは筐体内でのスナップショットにするなどポリシーを定義する。以降はポリシーに準じた運用を自動化し、効率を高める。
最適化
データ保護レイヤを俯瞰的に表示することでコピーをどう管理すれば効率的か気づきやすくする。俯瞰できると非効率なものや不必要なものを排除するなど最適化につなげることができる。
再利用
全体を俯瞰することで、例えば開発用のコピーデータを分析用にまわすなど、再利用できるものを見いだすことができる。
なおeCDMはRESTのAPIでも使えるため、これまで使用していた管理ツールとの統合も可能だ。
「Data Domain Virtual Edition」、「Data Domain Cloud Tier」
昨年(2015年)のEMC Worldで「Project Falcon」と発表されたものがある。「Data Domain」をソフトウェアで提供するものだ。これがついに「Data Domain Virtual Edition(以下「DD VE」)」として提供開始となった。
データサイズは1TBから16TBまで柔軟に拡張可能。現時点ではVMware ESXiにインストールして利用する。追ってMicrosoft Hyper-Vに対応する予定。EMCコミュニティネットワークで無償の試用版を提供しており、0.5TBまで利用できる。
DD VEのメリットを飯野氏はこう話す。「Data Domainを使うほど容量は要らないけど性能を上げたいというとき、SSDの環境でDD VEを使えばローエンドのData Domainよりも高速化が可能となります。選択肢が柔軟になります」
もう1つクラウドを活用したデータの長期保管方法に役立つのが「Data Domain Cloud Tier」。Data Domainの中で自動階層化を行い、長期保存するものはクラウドに移動させる。クラウドストレージの中には安価なものも出てきているので、そうした選択肢を有効に使えるようになる。アクティブな層からクラウド保存向けの層へとデータ移動ポリシーを定義しておけば、バックグラウンドで自動的にクラウドへデータを移動する。サポートしているクラウドプラットフォームはEMC ECS、Virtusream Cloud Storage、加えてAWS(Amazon Web Service)やMicrosoft Azureといったパブリッククラウドも利用可能だ。
最後に飯野氏はこう話した。「いま企業にはメインフレーム、オープンシステム、モバイルアプリなど多様なプラットフォームが混在し複雑化しています。今EMCのデータ保護製品はあらゆるプロトコルやユースケースに対応可能な柔軟性があります。またEMCの技術なら既存環境にシームレスに統合し、従来型から次世代型へのシフトを可能にします」