システム障害の要因は「システムにある」とは限らない
岡本:ここ最近、国内外で重大なシステム障害が立て続けに発生しており、テレビや新聞などのマスメディアでも報道が相次いでいます。2024年7月には、とあるソフトウェアのアップデートを機に、世界的なシステム障害が発生しましたね。IT業界で長年こうした問題と向き合ってきた五十嵐さんは、近年頻発しているシステム障害を見てどのように感じていらっしゃいますか。
五十嵐:今やシステム障害は、単なる社内でのインシデントにとどまらず、その影響範囲が容易に国境を越えるようになったことを実感しています。そして、障害に対する備えをもう一度見直さなければいけないのではと。
ここ最近で報道されているような企業だって、何かしらのシステム障害対策は講じていたはずです。しかし、たとえば冗長化の仕組みを何パターンも準備していたとしても、予期せぬところで障害が発生してしまえば、その仕組みがうまく機能しない可能性があります。それを踏まえたうえで、皆さんの企業は果たして“確実に機能する仕組み”を構築できているかどうか……。
つまり、システム障害対策を発生させないための対策も重要ですが、発生してしまった時の対策を、最悪のシナリオも想定しながら十分に考えておくことの重要性を感じます。
岡本:最近の事例だと、とある大手の食品会社で基幹システムに障害が発生したことで、事業や経営が一時ストップしてしまうような事件がありましたね。それが食品会社だっただけに、私たち消費者の中にもその影響を感じた方が多かったことでしょう。
五十嵐:システム障害は、もはやIT関連部門だけの問題ではありません。企業全体で考えるべき問題です。売上低下やブランド毀損などにつながる可能性がありますからね。これはまさしく「経営の問題」であり、経営層も自分ごととして意識すべきでしょう。
岡本:障害の要因も、ITシステムだけにあるとは限りませんからね。
五十嵐:おっしゃるとおりです。もちろん、ハードウェアやソフトウェアの設計、テスト不足、環境に起因して発生する障害や、サイバー攻撃による障害もありますが、設定ミスなどの人為的な要因だって考えられます。あるいは、もっと組織的な要因、たとえば人手不足やコミュニケーション不足、組織体制、IT部門やベンダーへの丸投げ体質などが障害の引き金となる可能性もあります。これらを現場の力だけで解決するのは困難です。
岡本:近年ではランサムウェアの被害が拡大していることもあり、サイバーセキュリティのリスクとシステム障害が一緒くたに扱われているケースもよく目にします。
五十嵐:サイバー攻撃によってシステムの機能不全が招かれることもありますから、混同はやむを得ない場合もありますね。ただ、一概にITシステムといっても、その領域や機能は様々ですから、どのシステムをどう守るのか詳細に考えなくてはなりません。
たとえば「データ保護」に着目するなら、いかにデータを継続的に利用可能にするか、元の状態に復元できるかなどを考えておく必要があるでしょう。また、「業務処理能力の維持」に着目するならば、コンピューティングリソースやアプリケーションをどう保護していくか考える必要があります。
岡本:この時も、対策をそれぞれの担当者に任せきりにしたり、担当領域ごとに細分化して考えたりするのではなく、組織横断的に考えていくことが大切ですよね。
五十嵐:そうですね。まずは組織全体で大きな視点を持ち、自社の資産などで「守るべき対象は何か」を明確にすべきでしょう。次に、「それを守るには何が必要か」を考えます。ここで初めて、セキュリティ対策やシステムの冗長化、データのレプリケーションなどといった、現場での具体的な課題や解決策が見えてくることでしょう。
岡本:今年は、災害対策(DR:Disaster Recovery)やIT-BCPへの関心も非常に高まっていると感じます。年始に発生した能登半島での地震や、夏に発出された南海トラフ地震臨時情報など、それを加速させるような出来事も起こっています。
五十嵐:IT-BCPやDRへの注目度が一気に高まったのは、2011年の東日本大震災の時でした。そこから十余年を経て徐々に世間の関心が薄れてきていた時期もあったと思いますが、直近で再び自然災害のリスクが高まり、危機管理への意識も再燃していますね。
「データ保護」と「システム可用性」は両輪で強化していくもの
岡本:これだけシステム障害の要因が多岐にわたっていると、どこから対策を始めればよいのか悩んでしまいますね。ITシステムの担当者であれば、皆さんすぐにわかるものなのでしょうか。
五十嵐:そうとも限らないです。技術トレンドや環境の変化が非常に速いIT業界ですが、「いまいち改善や進化が進んでいないのでは?」と思うようなことがあります。システム障害に関することもその一つです。有事を想定したテストを万全に行うノウハウが社内に足りていないのか、あるいは継承されていないのか。もしくは、クラウドへのシフトが進んでいるにもかかわらず、クラウドに関する必要な情報やノウハウの習得が追いついていないのかもしれません。重要なのは、最新の技術を導入することではなく、それに関するリスクや対策も含めて包括的にキャッチアップしていくことです。
岡本:いわゆる、システムの高可用性(HA)化を実現するための施策そのものは、昔から色々ありましたよね。
五十嵐:そうですね。システムの可用性を考えるなら、まずはデータのバックアップ。そして古典的な手法だと、バックアップサーバーのホットスタンバイ、フォールトトレラントシステムの活用などがあります。ただ、そうした施策のどれか一つではなく、「データを守る」施策と「業務処理能力を維持する」施策は、常に両輪で進めていかなければなりません。
岡本:まさにサイオステクノロジーは、五十嵐さんがおっしゃったような“両輪での対策”を実現する製品やサービスを提供していますよね。その代表的な製品として「LifeKeeper / DataKeeper(ライフキーパー/データキーパー)」があるかと思います。
五十嵐:LifeKeeperは、システムの障害を監視し、稼動系に障害が生じた場合には待機系に自動で切り替えを行うHAクラスターソフトウェアです。システムのダウンタイムを短縮し、皆さんのビジネス損失を最小限に抑えます。サーバーのハードやOSだけでなく、ミドルウェアやアプリケーションに障害が発生しても、別の環境で即座に起動して業務処理能力を提供できます。
また、DataKeeperを使うことで、冗長化された共有ストレージのような仕組みを使わずとも最新のデータをリアルタイムにスタンバイ側へ複製し、障害が発生してもデータを継続して利用できる環境を構築できます。つまり岡本さんがおっしゃるように、データ保護と業務処理能力の維持、双方の領域をカバーしています。
岡本:導入すれば、システム担当者にとっても対策の手間が減るほか、難易度もグッと下がりそうですね。LifeKeeperの導入が適さない領域もあるのですか?
五十嵐:Webサーバーを大量に並べて、ロードバランサーで割り振るような環境には、あまり導入されないかもしれません。導入自体は可能ですが、LifeKeeperが得意とするのは、システムやビジネスの中枢を担うコンポーネント、すなわち簡単に横に並べて分散させられないような領域です。たとえば、マスターとなるデータベースや、ERPの中枢を担う部分で処理能力の継続を図るとか。
そうした中枢の部分は、ステートレスが多いWebサーバーのような方法で冗長化を図るわけにはいきませんよね。ですから、ミドルウェアやアプリケーションで常にシステムの健全性を監視しながら、異変があればスタンバイに切り替えるといったところで、LifeKeeperが適しているのです。
岡本:そうした製品を提供するベンダーは何社かありますが、LifeKeeperの強みや特徴を挙げるとすれば、いったい何でしょうか。
五十嵐:こうした製品は、機能面においてはどれも似たり寄ったりしがちですが、LifeKeeperは「使いやすさ、導入しやすさ」という点で非常に優れていると自負しています。既に皆さんの企業で導入されている、様々な製品やシステム環境に容易に適用可能です。特殊な準備や作り込み、高度な専門知識を必要とせずに導入いただける上、GUI環境でのユーザーフレンドリーなオペレーションも可能となっております。
システム障害対策の製品選定ポイントは? 自社の環境を見直してみよう
岡本:五十嵐さんは、システム障害対策の製品を選定する際のポイントとは何だとお考えですか。
五十嵐:一度導入したら長い間使い続ける製品ですから、やはり製品の信頼性や実績は大きなポイントになるかと思います。その点、LifeKeeperはワールドワイドで提供していますし、日本では20年以上の実績があります。それから、ベンダーなど提供側によるサポートサービスも重要でしょう。LifeKeeperは平常時は目立たない存在ですが、何かが起こった時には頼もしいサポート体制を整えています。こうした“安心感”も製品選定の指標になるかと。
岡本:安心感、とても大切だと思います。有事の際に頼ることになる製品なら尚更でしょう。
五十嵐:はい。やはり「いかに安心して使えるか、必要な時にシステムが確実に安定稼働するか」がお客様にとっては大切ですからね。その点では、冒頭にも述べたような「機能しない冗長化したシステム」も非常に怖いです。皆さんが現在構築している障害対策の仕組みは、果たして有事の際には本当に機能するものでしょうか。
岡本:となると、「自社環境で有効に機能する製品かどうか」も選定のポイントになりますね。LifeKeeperはその点いかがでしょう。
五十嵐:おっしゃるとおり、自社の環境に有効な製品を選ばなければ意味がありません。たとえば、新しいOSやクラウド環境にも対応しているかどうか。たとえば、最近AWS Outpostsという、AWSの機能をオンプレミスやエッジロケーションで稼働させるサービスが出ています。LifeKeeperは、既にこの環境にも対応しています。
この通り、様々な環境下で導入できる製品となっていますので、「自社には適応可能か?」と気になった方は、ぜひお問い合わせください。システムが複雑だったり、まだ導入事例が少ない最新のシステムを構築していたりと、困難だった環境に適応できたケースが多々あり、アドバイスを差し上げられることもあると思います。
岡本:災害対策の観点ではいかがでしょう。
五十嵐:つい最近、「Disaster Recovery add-on」という新しいオプションを提供開始しました。システム障害対策だけでなく、地理的なダメージなどといった災害対策にもケイパビリティを拡大しているところです。これまで、多くのお客様から災害対策ソリューションの要望をいただいていましたが、満を持して自信を持った提供ができるようになりました。
岡本:昨今の情勢も踏まえて、これからのシステム障害リスクにはどのような備えが重要になりそうですか。
五十嵐:トレンドを考慮するなら、オブザーバビリティ(可観測性)の分野の有効性が挙げられるでしょう。複雑化するIT環境において、どこにどんなコンポーネントが存在していて、それらがどのように関連し、どう稼働しているのかを把握し、どこで異変が起こっているかを可視化することが重要です。
昔から、問題を起こしたり、攻撃の対象になったりするのは、存在を認識されていない機器だったりします。いわゆる“野良状態”になっているものです。障害対策においても、存在をきちんと可視化しておけば、オペレーターはじめ担当者が素早いアクションをとれるようになります。今後はそこに機械学習やAIを用いて、運用を自動化していくことも期待されます。
岡本:ただし、実際に素早いアクションをとれるかどうか、他にも様々な要素が絡んでくることもあるでしょう。それこそ、社内体制など組織の整備が必要な場合もありますよね。
五十嵐:そうですね。ただ、ビジネスの中枢を支えるシステムを保護し、すぐに回復させることに高い意識を持ち、取り組む必要性は今も昔もまったく変わらないということは、あらゆる企業に対し強く申しあげていきたいところです。
岡本:繰り返しにはなりますが、まずは自社のIT資産を棚卸しして、オブザーバビリティをもって予兆を監視し、何か起こった時には迅速に対応できるかどうか、やはり今一度見直してみる必要がありますね。
五十嵐:はい。そのうえで、導入する障害対策の製品を検討していただければと。今回紹介させていただいたLifeKeeperは、障害発生後には自律的に復旧できる仕組みになっています。「自ら監視し、自ら復旧する。そして自動で回復する」HAクラスターソフトウェアです。皆さんの最後の砦として、セーフティーネットの役割を果たすことでしょう。ぜひ、対策の一手段として参考にしていただければ幸いです。