SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

最新イベントはこちら!

Data Tech 2024

2024年11月21日(木)オンライン開催

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けの講座「EnterpriseZine Academy」や、すべてのITパーソンに向けた「新エバンジェリスト養成講座」などの講座を企画しています。EnterpriseZine編集部ならではの切り口・企画・講師セレクトで、明日を担うIT人材の育成をミッションに展開しております。

お申し込み受付中!

EnterpriseZine(エンタープライズジン)

EnterpriseZine編集部が最旬ITトピックの深層に迫る。ここでしか読めない、エンタープライズITの最新トピックをお届けします。

『EnterpriseZine Press』

2024年秋号(EnterpriseZine Press 2024 Autumn)特集「生成AI時代に考える“真のDX人材育成”──『スキル策定』『実践』2つの観点で紐解く」

週刊DBオンライン 五味明子

地味でつまらないログ収集をおもしろおかしく! 最強ログコレクタ「Fluentd」のチカラ


DB Online読者の皆さまなら、Treasure Dataというベンチャー企業の名前を聞いたことがある方も多いと思います。シリコンバレーに拠点を置き、Hadoopによるビッグデータビジネスを展開する同社はファウンダーが全員日本人であり、Yahoo!の創業者であるジェリー・ヤン氏が出資したこともあって、ここ最近、急速に注目度が高まっています。今回、筆者は米国出張の合間にマウンテンビューにあるTreasure Data本社を訪問する機会に恵まれました。Hadoop業界では知らない人はいないであろう超有名アーキテクトの若きCTO 太田一樹さんから本当にたくさんのトレジャーなお話を伺ったのですが、とても本コラムだけでは紹介しきれないので、ここでは同社が開発するログコレクタ「Fluentd」について伺った内容をご紹介します。

ビッグデータ時代でもログ収集は面倒な作業のまま…

太田さん
太田一樹さん

 2013年になってもバズり続けている"ビッグデータ"ですが、データ分析において最も重要となるプロセスは何かというと、やはり肝心のデータを集める作業ではないでしょうか。そしてデータからビジネスに役立つ情報を高い精度で得ようとするなら、やはり母集団となるデータの量は多いに越したことはありません。

 中でもソーシャルネットワークやソーシャルゲーム、eコマースなどBtoCなWebサービスを提供している企業の場合、ユーザの振る舞いを記録した膨大なアクセスログは、ビジネスを展開していく上で何よりも大切な宝ものだといえます。サービスの品質を向上し、収益性を高め、競合と差別化を図っていくためには、ログから何を読み取るかが勝負の分かれ目になります。そしてログ解析の精度を高めるには、当然ながら大量のログが必要です。つまりログ収集という作業は本来、Webアプリケーションを使ったビジネスであれば最も手を抜いてはいけないプロセスのはずなのです。

 ところがこの大事なはずのログ収集、実はデータ分析のライフサイクルにおいて最もおざなりにされがちな部分でもあります。その理由はずばり「面倒だから」に尽きるといえます。

 ログはたいてい、あちこちのサーバに分散して存在しているので、分析するためには1カ所に集約して管理したり、別のシステムに転送する必要がありますが、その作業はかなり面倒です。また、ログの一括収集や一括管理を可能にするツールもそれほど多くありません。複数のログを連携させて別のデータベースに書き込むのも手間がかかります。またログがsyslogdで記録されている場合、構造化されていないテキストデータなので、アドホックな分析をするには、集めたログをいったん別のパーサに通さなくてはなりません。さらにログはどんどん書き込まれていくので、ファイルサイズがすぐに大きくなりますが、必要なログの一部だけを抜き出したり、差分だけを収集する方法も用意されていないことがほとんどです。

 要するにログというものは非常に扱いにくい存在であり、ログを集めるという作業は、面倒で、時間がかかって、つまらなくて、地味なので、みんなテキトーにお茶を濁してきたというのが実情ではないでしょうか。本来、データ分析のための最も重要なプロセスのはずなのに、その面倒さからデータ分析のボトルネックと化してしまっている。「1日に数回、rsyncで同期を取る」「複数のログを連携させることはしないで、1つのログを単独で利用する」といった運用のままでは、いまの時代、精度の面でもスピードの面でも残念な分析結果しか得ることができずに終わってしまいそうです。

次のページ
Fluentd - ログを"左から右へ"フルーエントに流す

この記事は参考になりましたか?

  • Facebook
  • X
  • Pocket
  • note
週刊DBオンライン 五味明子連載記事一覧

もっと読む

この記事の著者

五味明子(ゴミ アキコ)

IT系出版社で編集者としてキャリアを積んだのち、2011年からフリーランスライターとして活動中。フィールドワークはオープンソース、クラウドコンピューティング、データアナリティクスなどエンタープライズITが中心で海外カンファレンスの取材が多い。
Twitter(@g3akk)や自身のブログでITニュース...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

EnterpriseZine(エンタープライズジン)
https://enterprisezine.jp/article/detail/4613 2013/03/08 12:28

Job Board

AD

おすすめ

アクセスランキング

アクセスランキング

イベント

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング