“データセンターのGoogle”――Splunkの有用性とは?
蔵重:今はログを収集するだけでは足りず、求めている「情報」を導かなくてはなりません。膨大なログから一見関連性のないものと組み合わせて、必要な情報を導き出す技術が必要です。そこに有用なツールとなるのがSplunk(スプランク)です。
安藤:Splunkは、「データセンターのGoogle」と呼ばれることもあります。これは、データセンターにある膨大なログから相関分析などで必要な情報を導き出すことも、Splunkならば可能だからと聞いています。
蔵重:そうです。複数のサーバーにあるデータを集約して検索するのが得意な製品です。一般的にログデータというのは製品ごとにフォーマットが異なり、分析するにもデータ長などを揃え、各データの前処理をしないと分析できません。しかしSplunkは日付や文字などデータタイプを自動判別するため、収集したログデータがそのまま解析できます。
安藤:ファイアウォールのログ、アプリケーションのログ、OSのログ、それぞれ製品ごとにも形式が異なっていますからね。それぞれ、単体で使う分にはいいのですが、集約して全体を分析するとなると難しい。Splunkのいいところはログデータの垣根を取っ払い、全てのデータを飲み込んで処理してくれるところです。
蔵重:複数のデータを組み合わせて情報を導き出すには心強いツールです。さらに言えば時間が含まれるデータを追跡するのが得意です。
安藤:内部不正を割り出すようなときは時間が鍵になりますからね。時間の経過とともに起きた変化を追跡すると、不正や攻撃の経緯が徐々に見えてきます。例えば「ある人が出社すると内部からの攻撃が増えている」とかですね。入退室記録とサーバーへの攻撃のログを照らし合わせると、関連性が見えてきたりします。
蔵重:内部調査には重要です。例えば「出社の記録がない社員のアカウントでログインされている」などはとても疑わしい情報となります。ここが不正事実を解明する糸口となります。
安藤:認証記録とほかのデータの照合は重要ですね。どのマシンにどのユーザーでログインして、どのサーバーにアクセスして、どのコマンドを発行したか。時系列で事象を追いかけると不正行為がどのように行われたのかがおおよそ見えてきます。こうした追跡にはSplunkは強いと思います。
蔵重:ここ数年ビッグデータ時代と言われています。それでも、先ほどお話したようにビッグデータも、そのままでは分析できるデータばかりとは限りません。データの絶対量が多くなるわけですから、使える形式に変換したり、判別したりするデータ分析の前処理の負荷は大きくなります。
安藤:そうですね。データは単に集めればいいというものではありませんね。何と何を照合すればいいのかも重要です。
蔵重:そこはある程度人間の経験と知恵から培われた勘になりますが、Splunkがあることによって技術者はデータの前処理などの作業から解放されるので、短期間で経験値を得やすくなる効果があると思います。
■■■ Splunk 関連セミナー 11月21日(金) 開催! ■■■
「内部不正やセキュリティ事件はなぜ防げないのか? ~情報漏えい事件のトレンドと巧妙な攻撃や内部不正を追い詰めるSplunkのログ解析~」
★詳細・お申込み(無料)はこちら⇒ http://www.hitachi-solutions.co.jp/events/2014/splunk1121/