SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

最新イベントはこちら!

Data Tech 2024

2024年11月21日(木)オンライン開催

EnterpriseZine Day Special

2024年10月16日(火)オンライン開催

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けの講座「EnterpriseZine Academy」や、すべてのITパーソンに向けた「新エバンジェリスト養成講座」などの講座を企画しています。EnterpriseZine編集部ならではの切り口・企画・講師セレクトで、明日を担うIT人材の育成をミッションに展開しております。

お申し込み受付中!

システム障害管理の効率化──AIOpsへの道筋

監視ツール高度化で「アラートノイズ」が頭痛のタネに シニアエンジニアへの負荷も増大、どう解消する?

担当者を悩ませる「インシデント対応」における課題

 近年、ITシステムの複雑化により、インシデントの発生件数も増加傾向にあります。ひとたびインシデントが発生するとサービスの提供が停止し、ビジネスに大きな影響を与えます。そのため迅速な対応が求められるのですが、そこには多くの課題があります。ITシステムはさまざまなサービスやアプリケーション、インフラストラクチャから構成されており、それらが相互に連携して動作しています。障害が発生した際、どの部分に問題があるのかを特定することは容易ではありません。時には、複数の部分に問題がある場合もあり、原因の特定には高度な知識と経験が必要とされます。本稿では、担当者を悩ませるインシデント対応における課題と、それらの解決策について解説します。

大量のアラート発報によるノイズをどう解消する?

 監視ツールの高度化により、大量のアラートが発生するようになりました。アラートの中には、実際には対応が不要なものも多く含まれており、重要なアラートを見逃すリスクが高まっています。こうした状況は「アラートノイズ」と呼ばれています。

 アラートノイズが発生する主な理由は、次の2点です。

  1. 監視項目の設定ミス
  2. 閾値の設定ミス

 監視項目の設定ミスとは、本来監視する必要のない項目を監視してしまうことを指します。たとえば、開発環境の一時的なリソース枯渇を監視してしまうと、アラートが頻発してしまいます。

 また、閾値の設定ミスとは、アラートを発報する基準値が適切でないことを指します。閾値を低く設定しすぎると、一時的な負荷変動でもアラートが発生してしまいます。アラートノイズに対処するため、次の点を考慮しましょう。

監視項目の見直しによる、不要な監視の削除

 監視項目を定期的に見直し、不要な監視を削除することで、アラートノイズを減らすことができます。その際、システムの重要度や影響範囲を考慮して、監視の粒度を決定する必要があります。

閾値の適正化によるアラートの最適化

 閾値の設定には、過去のデータの分析が有効です。正常時の負荷の範囲を把握した上で、閾値を設定することが重要です。また、閾値の設定は、false positiveとfalse negativeのバランスを考慮して行う必要があります。

アラートの重要度設定による優先順位付け

 アラートの重要度を設定することで、対応の優先順位を明確にできます。重要度の高いアラートには迅速に対応し、重要度の低いアラートは定期的に確認するようにします。

オンコール対応

 インシデントは予期せぬタイミングで発生するため、日中の通常勤務時間外の対応、つまりオンコール対応が必要となります。しかし、オンコール対応には次のような課題があります。

  • エンジニアへの高い負荷
  • 対応の属人化
  • 引き継ぎの非効率性

 オンコール対応は、エンジニアにとって大きな負担となります。深夜や休日の対応は生活リズムの乱れを引き起こし、疲弊につながります。特に、特定のエンジニアに対応が集中すると負荷がさらに高まります。

 また、オンコール対応が特定のエンジニアに依存してしまうと、ノウハウの属人化が進みます。その結果、エンジニアの離職時に引き継ぎがスムーズにいかず、対応力の低下を招いてしまいます。さらに、オンコール対応では引き継ぎが重要となりますが、引き継ぎが非効率的だと対応の遅れにつながるだけでなく、特に複雑な障害の場合、引き継ぎに時間がかかると対応が後手に回ってしまいます。

 これらの課題への対処には、以下のような解決策が有効です。

シフト制の導入による負荷分散

 シフト制を導入し、オンコール対応を複数のエンジニアで分担することで、特定のエンジニアへの負荷集中を防げます。シフトの設計には、スキルセットや勤務状況などを考慮する必要があります。

ナレッジベースの整備によるノウハウの共有

 ナレッジベースを整備し、過去の障害事例とその対応方法を蓄積・共有することで、エンジニアの属人的なノウハウを“組織の資産”として活用できるようになります。ナレッジベースは定期的にメンテナンスし、最新の状態に保つ必要があります。

引き継ぎドキュメントの整備による効率化

 引き継ぎドキュメントを整備することで、引き継ぎの効率化を図れます。引き継ぎドキュメントには障害の状況や対応方針、進捗状況などを明記します。これにより、引き継ぎ先のエンジニアがスムーズに状況を把握し、対応を継続できるようになります。

次のページ
インシデント対応における悩みのタネ「人材育成」

この記事は参考になりましたか?

  • Facebook
  • X
  • Pocket
  • note
システム障害管理の効率化──AIOpsへの道筋連載記事一覧

もっと読む

この記事の著者

草間一人(jacopen)(クサマカズト)

PagerDuty株式会社 Product Evangelist
通信事業者でプラットフォームエンジニアを務めたのを皮切りに、いくつかの外資系企業でプロフェッショナルサービスやプリセールスエンジニアとしてクラウドネイティブやプラットフォーム製品に携わるなど、10年以上さまざまな形でプラットフォームに関与し...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

EnterpriseZine(エンタープライズジン)
https://enterprisezine.jp/article/detail/19565 2024/05/28 08:00

Job Board

AD

おすすめ

アクセスランキング

アクセスランキング

イベント

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング