日々発生する複数の問題の対処や報告に追われ頭を抱えていらっしゃるシステム管理部門の方も少なくないのではないでしょうか。非効率な対応でトラブルが長期化してしまうことにお悩みの方もいらっしゃるかもしれません。
筆者は元々 Oracle Database のサポート業務に携わっており、そこからDBAとしてシステム構築プロジェクトに参画。その後 日本オラクルの DB コンサルタントとしてデータベースを運用するチームの支援をしてきたという経験があります。それらの経験の中で筆者が実際に現場「使える!」と感じたトラブルシューティングのコツをお伝えすることで、皆さんの悩みを少しでも解消できればと思っています。
さて、その第一回となる今回の記事では、問題発生時の初期調査について紹介します。Oracle Database に関する技術的な話題は以降の記事で扱うものとし、今回はシステムにおけるトラブルの初期調査に共通した部分について話をしたいと思います。この内容は一見簡単に思えますが意外と見落としがちで重要なポイントです。また、少ない労力で大きな効果を見込めるため、最初の話題にぴったりです。
まず以下のフローで全体像を確認頂き、各トピックに進んで下さい。
トラブルの発生状況を詳しく連絡する
問題が発生した際には、どんな問題がいつどこで発生したのかを確認することにつとめます。そしてその内容を各部署に正確に連絡します。
よくあるのが「あるシステムで問題が発生したので調査して欲しい。」という情報が独り歩きし、どのような問題が発生しているのかを伝えられないままにアプリ担当、DB 担当やネットワーク担当がそれぞれ調査を開始してしまうケースです。
例えばそのシステムに3台のサーバがあった時、前述の情報だけではそれぞれの担当者はどのサーバを確認すればよいのか分かりません。トラブルの連絡をする際は、事前に「5W1H を伝える」等の取り決めをするなどして漏れなく情報を伝えられると良いでしょう。