24時間稼動を強いられているシステムの運用現場
今の世の中、ITが社会を支えていると言っても過言ではない状況だと思います。公共サービスのIT化が進み、ちょっとしたデータトラブルでもあろうものなら大変な影響が生じます。
例えば、2007年5月に起きた全日空の座席管理システムの不具合により数百便に及ぶ欠航や遅延、同年10月にJR東日本が引き起こした首都圏自動改札の一斉停止したことは、まだ記憶に新しいでしょう。
さらに遡れば、みずほ銀行をはじめとする巨大金融機関での統合ミスに起因するATM停止、東京証券取引所のシステム性能不足による取扱高の抑制とそれによる株価下落など、金融分野の影響も非常にインパクトがあることが分かります。
そのような私たちの生活基盤を支える、いわゆる社会インフラに関するシステムというものは、使えない時間帯を極小化するほど利便性が高まるため、サービス提供時間とバッチ実行時間を含めれば、どうしても24時間(場合によっては365日)の稼動が求められてきます。
この流れはあらゆるITサービスに拡大しており、今やコンビニを筆頭として「あれば便利」という類のシステムもどんどん24時間稼動化が進んでいます。
ところで、24時間稼動のシステムでどのようなシステム運用がなされているか、皆さんはご存知ですか?
まず、ヒューマンリソースの面では、サービス提供時間(業務時間)帯は電話対応が可能なサービスデスク(ヘルプデスク・コールセンター等)の要員を配置しなければなりません。有人監視方法を採用している場合もまだまだ多く、サービス提供時間外もモニタリング要員が必要になります。
次に、ソフトウェア・ハードウェアリソースも考えてみましょう。
24時間の内訳がオンライン処理とバッチ処理でほとんど埋まっているシステムは、メンテナンスのためにシステムを停止することができないため、常に稼動状態でハードウェアの交換が行えるよう、あらゆる箇所で二重化を求められます。
これだけでも相当ハードウェア費用が高くなりますが、連続稼動によってメモリやディスクにゴミデータを蓄積するなどして、次第に処理パフォーマンスが低下することも往々にしてあり、それも見越した機器構成を考慮すると、費用はさらに上ぶれします。
週末や祝日も停止することが許されない場合、つまり24H/365Dが求められるシステムでは、さらにさらに費用が逓増していくことになるのです。
本当に24H/365Dの運用が必要か?
このようにITサービス提供の裏側まで考えると、現在24時間稼動しているシステムの全てが本当にそのサービスレベルを維持する必要があるのでしょうか?
先に述べたように、24時間システムを運用するということは、それだけ大量の運用人員や監視の仕組みを投入しなければなりません。サービス提供とバッチ実行の時間枠が拡大するほど、メンテナンスを行う時間が短くなり、それと逓増比例するように可用性に優れたハードウェアや高度な運用が必要になります。
費用対効果やROIという面で、きちんとバランスの取れている機器構成・運用レベルになっているか、本当に考えているシステムがあなたの周りにはどれほどありますか?
一例を挙げます。
A社では店頭販売やカタログ販売に加えて、インターネット上でオンラインショッピングを行っていました。オンラインショッピングの日販(1日あたりの売上)は2400万円に達しており、同社のビジネスを支えるとても重要なITサービスです。
同社はオンラインショッピングの売上を向上させるために、システム停止によるショッピングできない時間がゼロになるよう、莫大なシステム投資を行っています。このため、深夜時間帯のサービスを行っていなかったシステムリリース当初と比較し、ハードウェアのランニングコストは1.5倍に膨らんでしまいました。このまま常時稼動の運用を続けるなら、さらに運用コストは増大し、運用チームのメンバーにも多大な負荷がかかってきます。
さて、このまま24時間稼動を続けるべきか否か、あなたならどう判断しますか?
多くの方は、「調べるまでもない。売上拡大を重視するならこのまま続ければ良い。利益重視なら計画停止を運用に盛り込むべきだ」と考えるでしょう。確かにその通り、その考え方は基本的に正しいです。
しかし、オンラインショッピングに関するシステム分析の結果、次のようなデータが明らかになった場合はどうでしょう。
- 売上の20%が12時台に発生しており、システム性能が追いついていない
- 深夜4時台の売上は全体の1%に満たない
- 同時間帯にシステム停止&最適化を行えば、日中のシステムパフォーマンスが向上する
- 上記向上によって、12時台のパフォーマンスが改善され、売上が1%以上向上する可能性がある
システムを止めた方が売上が拡大するのですから、売上拡大路線にしろ利益重視路線にしろ、「24時間稼動はやめた方が良い」という結論になります。
加えて、計画的なシステム停止を運用に盛り込むことで、年間を通した運用の安定性を向上させつつも費用の低減が可能になります。直感的に理解できると思いますが、信頼性が99.9%というX製品と99.999%というY製品があれば、まず間違いなくY製品の方が高価になりますよね。
実際、こういった観点で、深夜時間帯で一定時間サービス提供を停止してメンテナンス時間に充てている企業は多いです。例えば、オンラインショッピング最大手の楽天、ネット銀行大手のジャパンネット銀行は同様の戦略を採用しています。
このように、ITサービスに係る収益及び費用の構造を正しく理解し、非可用性のコストを算出すると、今までにない選択をすることが可能になることもあるのです。もし、多くのシステムでROIという観点が欠如しているなら、できるだけ早くITILの可用性管理プロセスを導入しましょう。コスト面だけでなく、様々な側面からシステムを分析することで、必要な時間帯に必要な可用性を提供することができるようになり、ビジネスサイドもITサイドも双方が満足できる運用が可能になります。