PagerDuty活用前に抱えていた3つの課題、どう解決した?
では、実際にPagerDutyをどう活用してインシデント対応を行っているのか。村瀬氏は具体的な活用方法について説明を続けた。PagerDutyの利用場面は、CCoEにおける利用とプロジェクトにおける利用の2つに大きく分けられる。CCoEでは、TOROを安定的に提供すること自体もプロジェクトに貢献することにつながると考え、セキュリティやネットワークなどを対象にPagerDutyを使用している。一方、プロジェクトにおける利用では、主にアプリケーションを対象とし、TORO上で展開するプロジェクトに対して、CCoEの持つノウハウをもとにPagerDutyの初期設定やテンプレートを提供。この取り組みはトライアル中ではあるものの、プロジェクトにおけるPagerDutyの活用を加速させているという。
CCoE内でPagerDutyを活用する前は、設定が複雑化する中で、インシデント対応時に付加価値のない作業や無駄が発生していた。主な課題は3つあり、1つは監視ソリューションごとのフィルタリングが複雑だったこと、2つ目はSlack通知のみで対応していたため、常にインシデントに注意を払う必要があり、負担が大きかったこと、そして3つ目はインシデント発生時のチケット起票や会議設定を手動で行っていたことだ。
この3つの課題がPagerDutyの導入により改善されたという。フィルタリングが集約され、細かい設定も容易になった。また、電話による即時対応やエスカレーション機能によってSlack通知に気を揉むこともなくなったと効果を示す。さらに、チケット起票や会議設定もワークフローによって自動化。検証ではインシデント解消までの時間を62%削減できたと語る。
また、プロジェクトにおけるPagerDutyの活用について、村瀬氏はユーザーストーリーを例に挙げて説明。PagerDutyの展開前は、「運用の手間を減らしたいが、そもそも何をすべきかがわかっていない」などといった課題をプロジェクトメンバーが抱えていたという。最終的にPagerDutyを導入してインシデント対応をプロジェクト内で完結できることを目指す姿とした場合、「下図に示された2、3の部分に課題があると感じました」と村瀬氏。そこで、CCoEはサービスデスクから申請するだけでPagerDutyを利用可能にするための初期構築を実施したという。初期設定をコードで構築(IaC)し、一つのプロジェクトが申請される度にデプロイすることで、他のプロジェクトでの横展開も容易になる。また、プロジェクト単位でのインシデント管理がスムーズに行えるようにカスタマイズ可能なテンプレートも用意。このような取り組みを通じて、プロジェクト内でインシデント対応を回せる体制構築を支援しているのだ。
村瀬氏は最後に「プロジェクトでの展開はまだ試験段階にありますが、これらの取り組みを土台として、今後さらに多くのプロジェクトに適用し、拡大していきたいと考えています」とコメントした。