監視ツール高度化で「アラートノイズ」が頭痛のタネに　シニアエンジニアへの負荷も増大、どう解消する？

担当者を悩ませる「インシデント対応」における課題

2024/05/28 08:00

通知

　近年、ITシステムの複雑化により、インシデントの発生件数も増加傾向にあります。ひとたびインシデントが発生するとサービスの提供が停止し、ビジネスに大きな影響を与えます。そのため迅速な対応が求められるのですが、そこには多くの課題があります。ITシステムはさまざまなサービスやアプリケーション、インフラストラクチャから構成されており、それらが相互に連携して動作しています。障害が発生した際、どの部分に問題があるのかを特定することは容易ではありません。時には、複数の部分に問題がある場合もあり、原因の特定には高度な知識と経験が必要とされます。本稿では、担当者を悩ませるインシデント対応における課題と、それらの解決策について解説します。

通知

Page 1
Page 2

大量のアラート発報によるノイズをどう解消する？

　監視ツールの高度化により、大量のアラートが発生するようになりました。アラートの中には、実際には対応が不要なものも多く含まれており、重要なアラートを見逃すリスクが高まっています。こうした状況は「アラートノイズ」と呼ばれています。

　アラートノイズが発生する主な理由は、次の2点です。

監視項目の設定ミス
閾値の設定ミス

　監視項目の設定ミスとは、本来監視する必要のない項目を監視してしまうことを指します。たとえば、開発環境の一時的なリソース枯渇を監視してしまうと、アラートが頻発してしまいます。

　また、閾値の設定ミスとは、アラートを発報する基準値が適切でないことを指します。閾値を低く設定しすぎると、一時的な負荷変動でもアラートが発生してしまいます。アラートノイズに対処するため、次の点を考慮しましょう。

監視項目の見直しによる、不要な監視の削除

　監視項目を定期的に見直し、不要な監視を削除することで、アラートノイズを減らすことができます。その際、システムの重要度や影響範囲を考慮して、監視の粒度を決定する必要があります。

閾値の適正化によるアラートの最適化

　閾値の設定には、過去のデータの分析が有効です。正常時の負荷の範囲を把握した上で、閾値を設定することが重要です。また、閾値の設定は、false positiveとfalse negativeのバランスを考慮して行う必要があります。

アラートの重要度設定による優先順位付け

　アラートの重要度を設定することで、対応の優先順位を明確にできます。重要度の高いアラートには迅速に対応し、重要度の低いアラートは定期的に確認するようにします。

オンコール対応

　インシデントは予期せぬタイミングで発生するため、日中の通常勤務時間外の対応、つまりオンコール対応が必要となります。しかし、オンコール対応には次のような課題があります。

エンジニアへの高い負荷
対応の属人化
引き継ぎの非効率性

　オンコール対応は、エンジニアにとって大きな負担となります。深夜や休日の対応は生活リズムの乱れを引き起こし、疲弊につながります。特に、特定のエンジニアに対応が集中すると負荷がさらに高まります。

　また、オンコール対応が特定のエンジニアに依存してしまうと、ノウハウの属人化が進みます。その結果、エンジニアの離職時に引き継ぎがスムーズにいかず、対応力の低下を招いてしまいます。さらに、オンコール対応では引き継ぎが重要となりますが、引き継ぎが非効率的だと対応の遅れにつながるだけでなく、特に複雑な障害の場合、引き継ぎに時間がかかると対応が後手に回ってしまいます。

　これらの課題への対処には、以下のような解決策が有効です。

シフト制の導入による負荷分散

　シフト制を導入し、オンコール対応を複数のエンジニアで分担することで、特定のエンジニアへの負荷集中を防げます。シフトの設計には、スキルセットや勤務状況などを考慮する必要があります。

ナレッジベースの整備によるノウハウの共有

　ナレッジベースを整備し、過去の障害事例とその対応方法を蓄積・共有することで、エンジニアの属人的なノウハウを“組織の資産”として活用できるようになります。ナレッジベースは定期的にメンテナンスし、最新の状態に保つ必要があります。

引き継ぎドキュメントの整備による効率化

　引き継ぎドキュメントを整備することで、引き継ぎの効率化を図れます。引き継ぎドキュメントには障害の状況や対応方針、進捗状況などを明記します。これにより、引き継ぎ先のエンジニアがスムーズに状況を把握し、対応を継続できるようになります。

次のページ
インシデント対応における悩みのタネ「人材育成」

この記事は参考になりましたか？

広告を読み込めませんでした

広告を読み込み中...

印刷用を表示

システム障害管理の効率化──AIOpsへの道筋連載記事一覧: 導入急がれる「AIOps」成功のポイント──コストと時間をドブに捨てないために

「AIOps」で属人化したシステム障害管理は変わるのか、仕組みとユースケースからひも解く

「Runbook自動化」でシステム運用効率化を図るには、手動管理に潜むリスクを低減させる

もっと読む

この記事の著者: 草間一人（jacopen）（クサマカズト）

PagerDuty株式会社 Product Evangelist
通信事業者でプラットフォームエンジニアを務めたのを皮切りに、いくつかの外資系企業でプロフェッショナルサービスやプリセールスエンジニアとしてクラウドネイティブやプラットフォーム製品に携わるなど、10年以上さまざまな形でプラットフォームに関与し...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事