システムの安定稼働で重要な役割を果たす「監視」とは
システムの安定稼働を実現するためには、ネットワークやサーバなどの稼働状況を常に確認し、それらの上で実行されるデータベースサーバやWebアプリケーションサーバなどの稼働状況を総合的に監視する必要がある。
ここで重要なのが「総合的に」という部分だ。というのも、サーバやOS、データベースなどの監視対象はそれぞれが独立してログ情報やエラーを独自に発行するからだ。個別のフォーマット、個別のルールで報告される情報を捌くのは非常に手間のかかる行為なのだ。
例えば、データベースサーバがハードウェア障害でダウンした場合であれば、Webサイトの応答待ち時間切れエラー、ネットワークの通信エラー、OSのダウンなど、さまざまなエラーが運用管理者にバラバラに報告され、運用管理者を困らせる。