カプコンは、同社のゲームタイトルを支える共通基盤に、オブザーバビリティプラットフォーム「New Relic」を導入し、システムのパフォーマンス可視化と運用の効率化を実現した。
同社では、各ゲームタイトルが共通して使う機能を1つにまとめたバックエンドシステム「カプコン共通基盤」を開発し、2020年夏から運用しているという。共通基盤は、「アカウント管理」「(ゲーム利用者の)プロフィール管理」「同意規約管理」「ゲーム内通貨・DLC管理」「ID会員情報管理」の5つのシステムで構成され、複数のプラットフォームに展開されているゲームタイトルに対して、クロスプラットフォーム対応の共通機能やデータを管理・提供しているとのことだ。複数のゲームタイトルが利用しており、不具合が発生した場合の影響範囲が広いことから、24時間365日の安定稼働が不可欠だとしている。
共通基盤を安定して動作させるうえでは、インフラの状態を捉えるだけでなく、APM(Application Performance Monitoring)を活用することで、アプリケーションやミドルウェア、データベースなどの状態も併せて可視化し、異常を速やかに検知できるようにする必要があるという。その実現に有効なアプローチとして、オブザーバビリティプラットフォームの導入を決定したと述べている。
共通基盤は、共通基盤のエンジニアが利用する「開発・負荷試験」用の環境と、ゲームタイトル側に提供する「開発から本番運用」のための環境に分かれているというが、このうち共通基盤のエンジニア向け環境では、オブザーバビリティが負荷試験環境のみに導入されており、性能評価や課題の洗い出しに活用されているとのことだ。一方で、ゲームタイトル向けのシステムは幅広く利用されているため、課題によっては影響範囲が広がる可能性があるという。そのため、開発から本番運用までの各フェーズでオブザーバビリティを活用し、迅速な異常検知と対応可能な体制が構築されているとのことだ。
New Relicの導入後効果
システムの包括的な可視化によって対応や改善を迅速化・効率化
New RelicのAPMやログ、アラート機能を活用することで、開発から本番運用までの各フェーズにおいて、システム全体のパフォーマンスの包括的な可視化を実現。特に、New Relic APMの「External Services」は、共通基盤と連携する外部サービスのパフォーマンスを明確に把握できる有用な機能であり、課題の早期特定と対応を迅速に行えるようになったとのことだ。また、アラート機能は、社内で使用しているチャットツールと連携しており、関係者が状況を即座に把握できる体制を整えているという。これらの取り組みにより、障害対応時間の平均1時間の短縮に貢献しているとのことだ(カプコンの社内運用実績に基づく推測値)。
開発から本番運用まで、「TiDB」の監視・可視化の一元化を実現
2024年9月にカプコンは、共通基盤における「アカウント管理」と「プロフィール管理」のデータベースを、PingCAPが提供する分散型SQLデータベース「TiDB」に切り替えた。その後は、TiDBのライト版「TiDB Cloud Starter」を開発・QAなどの小規模なワークロード用に、エンタープライズ版「TiDB Cloud Dedicated」を負荷試験・ステージング・本番用に使い分けているという。TiDB Cloud DedicatedはNew Relicとの連携機能があり、リソース使用状況やクエリ情報を簡単に可視化できるとのことだ。一方、TiDB Cloud Starterはフルマネージドで利用者に運用の意識をさせないコンセプトになっており、最小限の監視機能のみが利用可能で、New Relicとの連携機能は実装されておらず、ダッシュボード上での可視化が困難だったとしている。
この課題に対し、同社ではNew Relic APM内に蓄積されるデータベースクエリのメトリクスを活用することで、TiDB Cloud StarterについてもNew Relicによる監視・可視化が実現されているとのこと。これにより、開発から本番運用まで一貫したオブザーバビリティが確立され、課題の早期特定と迅速な対応が可能になっているという。
新技術導入時の性能評価と円滑なリプレースを支援
カプコンでは、新技術の採用時における性能評価(負荷試験など)にもNew Relicが活用されているとのこと。TiDBの導入に際しても、試験段階からNew Relicを活用することで、課題の早期発見やアプリケーションの性能確認・評価が実施できたとしている。また、APMベースの監視設定は従来のデータベースにも適用可能であり、事前に設定しておくことで、TiDBへのリプレース当日の作業負荷を軽減し、スムーズな切り替えが行われたとのことだ。
ダッシュボードの統一化と情報共有で、運用効率の向上とコストを最適化
従来はログの収集と分析の仕組みに複数のツールが活用されていたが、今回の導入によってNew Relic Logsへとリプレースしてダッシュボードを統一化することで、運用・コストの最適化が実現されたという。また、ダッシュボードを通じた情報共有により、関係者が共通基盤の状況を的確に把握できるようになり、相互の意思疎通が円滑に進むことで、データに基づいた意思決定が加速し、運用効率が高いレベルで維持されているとのことだ。加えて、New Relicの活用として「監視設定のTerraform化」を導入しており、設定ミスの回避や各環境への展開の効率化が実現されているという。
【関連記事】
・東京ガス、「New Relic」導入で月300万件のリクエストを処理する受付システムを安定運用
・住信SBIネット銀行が勘定系システムをAWS上へ移行、基盤にDatadogプラットフォーム採用
・役割・責任の拡大に苦戦するCISO……経営層や他部門との共通言語・共通認識は作れているか?──Splunk
この記事は参考になりましたか?
- 関連リンク
- この記事の著者
-
EnterpriseZine編集部(エンタープライズジン ヘンシュウブ)
「EnterpriseZine」(エンタープライズジン)は、翔泳社が運営する企業のIT活用とビジネス成長を支援するITリーダー向け専門メディアです。データテクノロジー/情報セキュリティの最新動向を中心に、企業ITに関する多様な情報をお届けしています。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
この記事は参考になりましたか?
この記事をシェア
