システムトラブル対応・対策の行動原則
今回は実際に想定されるトラブル事例をもとに、運用担当者はどう行動すべきかを「トラブル対応・対策の行動原則」を押さえながら確認していきましょう。
[ユーザー] 購買システムを使おうと思ったら、画面の反応がありません。
[運用担当者] 状況を確認して対応しますので、しばらくお待ちください。
[ユーザー] よろしくお願いします。月末でやることがいっぱいあるんです。
[運用担当者] はい、すぐ見ますので。
問い合わせのあった時間帯、情報システム部事務所にはこの運用担当者しかいませんでした。そこで、何が起きているのかトラブル解析を始め、Webサーバが無応答であることが分かりました。利用できるシステムメモリが不足しており、プロセスが動作できないために無応答状態となっていることも分かりました。ただ、なぜそのようになったのか若手の運用担当者には経緯が分かりませんでした。
運用担当者は、かつて同様のメモリ不足となったとき、先輩がサーバーの再起動をしていたことを覚えていました。しかし当時と不具合の経緯が同じか分からず、原因が分からないため、どう対応すればよいか判断ができませんでした。「午後になれば、先輩たちが帰社する。自分で勝手に進めずに、待つしかない」。運用担当者はそう考えて、トラブル対応を保留としました。
問い合わせから約2時間経過した後、また先程と同じユーザーから電話がかかってきます。
[ユーザー] 先程の件、状況はどうですか?こちらは今か今かと待ちわびているんですが。
[運用担当者]状況は分かったのですがその原因が分からなくて。出先にいる情報システム部の先輩の帰りを待っています。
[ユーザー] あのねぇ、さっきの電話で、月末でやることがいっぱいって言いましたよね?12時までにシステムで発注処理を行わないと、大きな損失が発生するんですよ。なにを悠長なことをやっているんですか。すぐに情報システム部員を呼び戻して対応してください!!早くシステムを使えるように元に戻してくれないと、現場が大迷惑です!!早急に何とかしてください!!
先ほどは温厚だったユーザーは、苛立った様子で電話を切ってしまいました。まだ経験の浅い運用担当者はなぜこんなに怒られるのか理解できず途方に暮れてしまいました。
【行動原則その1】運用はサービス提供活動であり、常に顧客起点で考え行動する
基本的なトラブルの流れの中で、今回は「調査と対策検討」で手が止まってしまいました。そもそも事例に登場する運用担当者の考え方には、根本的な問題がありました。それは、運用担当者として最も重要な「運用はサービス提供活動であり、常に顧客起点で考え行動する」という心構えです。これは、トラブル対応を含むシステム運用活動での基本姿勢となる考え方(コンピテンシー)になります。トラブル対応においても、顧客側の立場に立って発想して行動することが重要で、外部サービス・内部サービス問わず同様です。
事例の運用担当者は、怒られた理由がわからず納得できないようですが、皆さんの現場でもこのような雰囲気になっていないでしょうか。私の現場経験においても、このように考えている運用担当者が割と多かったように思います。この場合、「自分はちゃんとやることをやっている」という意識が根底にあります。しかし、この考え方は自分中心で顧客中心ではありません。サービスを利用する顧客の立場では、サービスを提供する側がどう作業しているか、まして苦労しているかどうかは関係なく、サービスを十分に利用できるかどうかがすべてです。ユーザーはそこにサービスの満足度を感じています。この心構えに立って考えると、トラブル対応の行動原則やその理由を理解しやすくなります。
【行動原則その2】トラブル発生時は、迅速に対応し短時間で復旧させる
今回、運用担当者はトラブル対応に時間をかけすぎたため、ユーザーからクレームが発生してしまいました。もし顧客起点で顧客の立場に立って考えられていたら、サービスを利用できないユーザーのために、一刻も早く復旧させるべく行動できたのではないでしょうか。
ITサービスマネジメントのデファクトスタンダードとされるITILでは、発生したインシデント(運用トラブル)には、主としてインシデント管理プロセスと問題管理プロセスが連携して対応します。この運用トラブル対応の際にITILが一番に求めることは、迅速にサービス提供状態を平常状態に戻すことです。これは、復旧に時間がかかればかかるほど、顧客や事業に与えるマイナス影響が拡大するためです。顧客への悪影響はサービス満足度低下に直結するため、注意が必要です。
【行動原則その3】恒久対応よりも、まずは暫定対応を活用し復旧する
トラブル発生の原因を追求することは、確かに重要です。ただし、原因を明確にしたり類似不具合の有無を横断的に確認したりするには、時間を要します。これでは、ITILが求める「迅速にサービス提供状態を平常状態に戻す」ことに反してしまいます。そのため、運用トラブル発生時は、まず暫定対応を採用して、短時間でサービスを使える状況に復旧することが最優先と考えます。運用現場でよく使われる暫定対応の例は「リセット系」。Webサーバしかりネットワークルータしかり、無応答になった場合、まずは再起動操作による復旧を考えます。なお、同様トラブル事象が再発する可能性を考えて、正式対応を行うまでは「暫定対応手順書」を作成しておきます。万が一再発した場合、用意した手順書を用いてより短時間での復旧を実現します。
【行動原則その4】暫定対応後、再発防止のため、真因を突き止めて正式対応する。
暫定対応は表面上の対応でトラブル再発のリスクがあるため、あくまで仮対応にすぎません。そのため、発生したトラブルを根絶するために、原因を追究して真の根本原因(真因)に対して手当てを行う必要があります。これを「恒久対応」「正式対応」と呼びます。真因を明らかにするためには、「なぜなぜ分析」や「ロジックツリー」などの分析手法を活用して、原因の裏に隠れた原因を深堀りして明らかにしましょう。