あらゆる業務にITシステムが関わるようになり、企業が扱うデジタルデータの量は日々増え続けている。さらに、内部統制の強化やコンプライアンス対策など新たな要件も登場し、データをさらに長期間保存するよう求められる。その結果、企業はストレージを購入しても、すぐに容量が足りなくなってしまう状況に陥っている。コンプライアンス時代のストレージの条件について考えてみたい。
データ爆発時代の到来
管理すべきデータの爆発的な増加で、さまざまな課題が噴出している。
データ量が増えたせいでバックアップにかなり多くの時間がかかる。ストレージハードウェアも必要に応じ随時追加しなければならず、管理は煩雑となり物理的な設置スペースや消費電力の増加も懸念される。
また、従来は障害に備えバックアップしておけばよかったが、内部統制やコンプライアンスで必要になる監査に対応するには、保存された中から必要な情報を適宜速やかに取り出せなければならない。
管理するデータ量を減らす工夫
これらの課題を解決するために、さまざまなソリューションが登場している。
根本的な解決策の1つとなるのが、管理すべきデータ量をなんとか少なくすることだ。もっとも簡単な方法は、データを圧縮するというもの。ファイルレベルであれば、個人のPCでも圧縮しサイズを小さくするのはもはや当たり前のこと。あらかじめ指定したフォルダなどに情報を格納すると、自動的にデータ圧縮をする方法もある。
最近、データ量を減らす新たな技術として注目されているのが、重複除外(重複排除)だ。これは、ある意味でデータ圧縮の延長線上にあるものだ。
たとえばバックアップという処理を考えてみると、従来の方法では多くのデータを重複して保存することになる。これをなるべく回避するには、定期的なフルバックアップと差分バックアップを併用する必要がある。この方法でも重複するデータはかなり減らすことはできるが、フルバックアップの回数を減らしデータ量を少なくしようとすると、逆に復旧には多くの差分を適用しなければならず、かなりの時間を要してしまう。
そこで登場したのが、重複除外の技術だ。これは、あるデータセットを細分化し重複しているデータを除外するテクノロジーで、データ要素の保存を1回だけに済ませバックアップの効率化が可能だ。ハッシュアルゴリズムを使うかあるいはバイトレベルでデータ要素を比較し、重複する情報を除外してから保存する。そのため、データ量は最大で1/50程度まで減らすことができる。重複除外を施しても、アプリケーション側からは、1つの通常のアーカイブ・オンラインストレージに見えるものが多い。
情報量を減らせるので、事前に重複除外を行ってからストレージに情報を送れば、バックアップ処理でネットワーク帯域を圧迫しないなどのメリットもある。もちろん重複除外処理が発生するので、そのぶんのオーバーヘッドはあるが、工夫されたアルゴリズムや重複除外専用ハードウェアの登場など処理の高速化が図られつつある。データ量が増えバックアップが終わらないといった問題を抱えているならば、重複除外は有効な解決策になるかもしれない。
この記事は参考になりましたか?
- IT Compliance Reviewスペシャル連載記事一覧
- この記事の著者
-
谷川 耕一(タニカワ コウイチ)
EnterpriseZine/DB Online チーフキュレーターかつてAI、エキスパートシステムが流行っていたころに、開発エンジニアとしてIT業界に。その後UNIXの専門雑誌の編集者を経て、外資系ソフトウェアベンダーの製品マーケティング、広告、広報などの業務を経験。現在はフリーランスのITジャーナリスト...
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
この記事は参考になりましたか?
この記事をシェア