そして時代は変わって、次は10年ほど後に転職をした某国産メーカーの情シスでのお話です。ここでも基幹システムには汎用機を使用していましたが、私は主に生産工場のオープンシステムの開発担当となり、Visual BasicやOracleなどを使用した社内システムの開発、運用が主業務となりました。当時開発していた案件で使用していたサーバーはWindows NT4.0で、物流管理システムの基幹であり、バックアップ装置は当時発売されたばかりのDAT(DDS4: Digital Audio Tapeの略。音楽用にも使われた高密度のカセットテープ)を使用していました。DAT/DDS4は非圧縮20GB/圧縮40GBと今となってはUSBメモリにも劣る容量ですが、サーバー搭載のハードディスクがまだ4~6GB程度というような時代では十分な容量でした。DBが動いていたこともあり更新容量が大いので、毎夜間に増分バックアップ、毎週末にフルバックアップというありきたりな方法で運用をしていました。
そこで起きたのがハードディスクの障害によるサーバーの停止です。基幹の物流管理システムはMSCS (Microsoft Cluster Server)で構築していましたので、業務停止は一時的なもので済みましたが、問題は障害を起こした本番系のサーバーの復旧です。ハードディスクを交換して、OSをインストールし、DATに保存したバックアップからリストアを行なおうとしましたが、なんとバックアップをしたDATが、リードエラーを起こしてデータが読めません。バツが悪いことに、増分でバックアップをしていたデータでエラーが出たので、それ以降のデータの復旧ができなくなってしまいました。仕方ないので、週末にシステムを止めて、かなりの工数をかけてスクラッチで再構築をして、待機系のサーバーからシステムを復旧する羽目になりました。その間重要なシステムはクラスタの片肺運転で運用することになり、ここで更に障害が発生すると重要な生産ラインが止まる可能性があったので、正直ドキドキものだったのを記憶しています。
データが読めなかった要因はいくつか考えられますが、サーバーが置いてあったのがマシンルームではなく、わけあって工場の中で温度や粉塵管理ができなかったこと。また当時使用していたDATが、これらの環境要件に構造上非常に弱かったという点です。DATは元々SONYの音楽用テープでしたが、当時としては大容量かつ安価ということもあり、サーバー機器のバックアップとしてはよく使われた製品です。
しかしテープに記録する「ヘリカルスキャン」と呼ばれる方式が問題でした。これはテープの記録面に回転するヘッドが斜めに接触して、テープの面積を有効に利用する事が可能で、その後に発表されたAIT方式(Advanced Intelligent Tapeのテープや、家電ではVHSテープなどでも採用をされている方式です。ただしこの方式だと、ヘッドにテープ面を押し付ける負荷と、回転ヘッドによる摩擦の劣化が発生して、テープの寿命が短いという大きな欠点がありました。実際テープメディアには100回程度の使用回数制限があり、劣化したテープは使用しないで下さいなどと明記されていました。また粉塵が多い場所だと、当然ながら埃がヘッドに絡んで紙やすり的にテープを劣化させるため、状況的にはDATにとっては最悪な場所で使用をしていたことになります。
そして一番大きな問題は、テープメディアに損傷等がなければバックアップ自体はエラーもなく完了するため、実際にデータが復旧出来るかは、障害が発生してリストアした時点でわかるという点です(事前にバックアップしたデータがきちんと記録出来たかのチェックが出来ない)。その時は、まさかバックアップしたデータが読めなくなるとは想定していなかったため、眩暈がするほどの非常にショッキングな出来事でしたが、その後の対策なども含めて、この時の経験は今でも活きている気がします。
このトラブル後、DATはやめて機器をDLTに交換して運用を継続しましたが、その後は問題なくバックアップ及びリストアができましたので、機器の特性や性能は重要であると理解できた実例でした。なおこのDLTや現在主流のLTOなどのリニアトラック方式ですと、機構上テープに対するストレスが少なく、さらにドライブ側で書き込んだデータのエラー訂正も実施しているので、データのエラー率が非常に低い特徴があります。現在はLTOが主流でLTO-8(圧縮時32TB)が発売されており、実際にテープ装置にバックアップをする場合はLTO系のリニアトラック方式をお勧めしたいと思います。
今回の結論を言いますと、想定外の単純なオペレーションミスや災害等でバックアップが消失してしまう前提で、バックアップデータは複数のメディア、場所に分けて保管する3-2-1ルールを徹底すること。バックアップデータを記録する機器は、価格だけではなくその機構、特性を考慮して、データロストの可能性の少ない高性能なものを選択すること。また可能であれば、定期的にバックアップデータの記録状況をチェックすること。これを守っていただければ、リストア時にデータが戻せないという悲しい状況を防ぐことが可能になります。
それでは、また次回に乞うご期待。