システム運用現場の問題点は?~トラブル事例~
みなさんはシステム運用の現場を経験したことはあるでしょうか?企業や組織にはサービスの安定提供が求められるため、システム運用の現場は日々、システムを安定稼働させるための作業を行います。しかし、システムが停止してしまった、システムが停止した後にデータを元の状態に戻せなくなってしまったなど、周りを見渡すと運用トラブルが少なからず発生しています。なぜ、そのようなトラブルが起きてしまうのでしょうか?実際に起きたトラブルをもとに考えていきましょう。
Aさんは社内サービスである売上管理システムの運用を担当していました。運用開始から半年ほど経ったある日、データの追加登録ができなくなり、システムが停止してしまいました。 原因を調べたところ、データベースの更新ログファイルが肥大化しており、その結果、ハードディスク領域を圧迫していたことが判明しました。
今回のトラブルの原因は以下のようなことが考えられます。
- 必要な容量の見積もりができていない
- 製品についての知識が不足している
- バックアップ、リストアの方式を決めていない
- ハードディスクの空き領域を監視していない
まずAさんは、事前に必要な容量を見積もり、適切に環境構築する必要がありました。容量を見積もるためには、バックアップ、リストアの運用方式を決め、データ量や更新頻度をもとにバックアップファイル、更新ログファイルそれぞれに必要な容量を算出します。さらに予防策として、ハードディスクの空き領域をきちんと監視(装置の利用可否や稼働状況を見張ること)をしておけば、トラブルを未然に防ぐことができました。
ここで登場した容量の見積もりや監視方式は、上流工程で決定するべき項目です。この事例からも分かるとおり、システム運用工程で発生する問題の多くは、上流工程での要件定義や設計に不備、考慮漏れがあるため発生しています。
では、トラブルを回避するために、どの工程で、どのようにシステム運用項目を決定していくのかを確認していきます。