ハイブリッドな仮想化集約環境での運用性を向上
JP1 V9.5における第一のポイントは、「進展するクラウド環境への対応」だ。2010年6月発売の「V9.1」で導入されたプライベートクラウド環境への対応をさらに強化し、同時にパブリックを含めたハイブリッド環境のシームレスな監視、運用を可能にする。
従来型の運用手法では、それぞれのサーバー、アプリケーションの稼働状況を監視することにより、ユーザーに提供されるサービスの状況を間接的に把握していた。しかしそれだけでは、クラウドや仮想化の導入により監視対象が増え、システムの構成や構造が複雑化している中では、機敏に運用することが難しい。
そこで、JP1 V9.5では、アプリケーションやサーバーを含めたサービス自体を監視するJP1/IT Service Level Management(JP1/ITSLM)が投入された。従来の監視製品がシステム管理者の視点で機能が提供されていたのに対し、サービスを利用するユーザーの視点でサービスレベルの維持をしていくことが主眼とされている。そのため、サービスレベルの現状をひと目で把握できる画面が用意された。安定稼働の場合は緑、注意が必要な物は黄色、何か問題が生じているものを赤で表示する。ただ、システム管理ソフトウェア本部の加藤恵理氏は「実際の運用では、障害が発生する前に予兆を検知できるので赤や黄色が出ることは概ね回避できる」と語る。
従来の監視手法では、システムの反応速度やCPUの使用率などが、設定されたしきい値を越えて初めて異常と判断する。一方JP1の予兆検知では、過去の状況(ベースライン)から実測値がかい離しはじめた時点で予兆としてアラートが出る。問題発生前に対策を行うことで、対応時間の大幅短縮と、サイトを止めずに障害を未然に防止することができる。
それを可能にしているのは、日立独自のストリームデータ処理技術の応用による、大量の監視データのリアルタイム分析だ。しかもベースラインは一つではなく、下限値と上限値の2本立てになっており、その間の幅で外れがないかを見ている。「例えば、アクセスが集中する時間に、多少レスポンスが悪くなるのは通常の状況といえる。しかし、アクセスが多いのにパフォーマンスが落ちない場合、逆に何か問題が発生する可能性がある」(加藤氏)。
ただ、予兆検知のため、すべての怪しい事象に対してアラームを上げてしまうと、本当に危険な兆候を見落とす可能性が高くなる。運用管理者から見れば、アラームの精度をいかに上げるかが、次のポイントになる。日立社内での実証実験では、問題が発生する1時間前までに85%以上の予兆を検知できることが確認されている(顧客環境での通信高負荷時の障害を対象にしたプロトタイプ検証の結果による)。残りの15%は、限りなく白に近いグレーゾーンの事象を予兆として通知し、結果的に白だったものだ。つまり、問題発生を見逃したのではない。
監視系ではしきい値の設定に悩む運用担当者が多いが、「JP1/ITSLMを一ヶ月程度稼働すれば、ベースラインが自然と取れる。そういう面でも使いやすい製品だといえるだろう。