データ爆発時代の到来
管理すべきデータの爆発的な増加で、さまざまな課題が噴出している。
データ量が増えたせいでバックアップにかなり多くの時間がかかる。ストレージハードウェアも必要に応じ随時追加しなければならず、管理は煩雑となり物理的な設置スペースや消費電力の増加も懸念される。
また、従来は障害に備えバックアップしておけばよかったが、内部統制やコンプライアンスで必要になる監査に対応するには、保存された中から必要な情報を適宜速やかに取り出せなければならない。
管理するデータ量を減らす工夫
これらの課題を解決するために、さまざまなソリューションが登場している。
根本的な解決策の1つとなるのが、管理すべきデータ量をなんとか少なくすることだ。もっとも簡単な方法は、データを圧縮するというもの。ファイルレベルであれば、個人のPCでも圧縮しサイズを小さくするのはもはや当たり前のこと。あらかじめ指定したフォルダなどに情報を格納すると、自動的にデータ圧縮をする方法もある。
最近、データ量を減らす新たな技術として注目されているのが、重複除外(重複排除)だ。これは、ある意味でデータ圧縮の延長線上にあるものだ。
たとえばバックアップという処理を考えてみると、従来の方法では多くのデータを重複して保存することになる。これをなるべく回避するには、定期的なフルバックアップと差分バックアップを併用する必要がある。この方法でも重複するデータはかなり減らすことはできるが、フルバックアップの回数を減らしデータ量を少なくしようとすると、逆に復旧には多くの差分を適用しなければならず、かなりの時間を要してしまう。
そこで登場したのが、重複除外の技術だ。これは、あるデータセットを細分化し重複しているデータを除外するテクノロジーで、データ要素の保存を1回だけに済ませバックアップの効率化が可能だ。ハッシュアルゴリズムを使うかあるいはバイトレベルでデータ要素を比較し、重複する情報を除外してから保存する。そのため、データ量は最大で1/50程度まで減らすことができる。重複除外を施しても、アプリケーション側からは、1つの通常のアーカイブ・オンラインストレージに見えるものが多い。
情報量を減らせるので、事前に重複除外を行ってからストレージに情報を送れば、バックアップ処理でネットワーク帯域を圧迫しないなどのメリットもある。もちろん重複除外処理が発生するので、そのぶんのオーバーヘッドはあるが、工夫されたアルゴリズムや重複除外専用ハードウェアの登場など処理の高速化が図られつつある。データ量が増えバックアップが終わらないといった問題を抱えているならば、重複除外は有効な解決策になるかもしれない。