SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

直近開催のイベントはこちら!

EnterpriseZine編集部ではイベントを随時開催しております

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けの講座「EnterpriseZine Academy」や、すべてのITパーソンに向けた「新エバンジェリスト養成講座」などの講座を企画しています。EnterpriseZine編集部ならではの切り口・企画・講師セレクトで、明日を担うIT人材の育成をミッションに展開しております。

お申し込み受付中!

DB Press(AD)

データサイエンティストの思考を止めない――超高速データ分析で“将来予測”を実現するNetezza Analyticsの実力

 データウェアハウス・アプライアンスとしてNetezzaが登場したのは、2003年。データウェアハウスのワークロードをいかに高速化するか、それをいかに簡単に実現するか――これらの課題に対し徹底的な“こだわり”がある製品だ。2010年には、NetezzaはIBMの一員となる。そしてビッグデータ時代を迎え、新たにアナリティクス・アプライアンスへと進化中だ。その進化は、一体どんなものなのだろうか。IBM Netezza Analyticsの担当者に話を聞いた。

ビッグデータ時代に求められるのは、“将来を予測する”マイニング系の分析

 日本アイ・ビー・エム ソフトウェア事業部 インフォメーション・マネジメント事業部 BigData/Netezza Analytics Specialist 小島 繁樹氏
日本アイ・ビー・エム ソフトウェア事業部
インフォメーション・マネジメント事業部
BigData/Netezza Analytics Specialist 小島 繁樹氏

 「データの『分析』は、レポーティング系とマイニング系の2つに大別できます」と語るのは、日本アイ・ビー・エム ソフトウェア事業部 インフォメーション・マネジメント事業部 BigData/Netezza Analytics Specialistの小島繁樹氏。

 レポーティング系は、これまでもBIの世界で実現してきた。過去データの意味を理解し、その変化を捉えるものだ。対してマイニング系は、「ちょっと先のことを見たいという要求に応えるものです。10年先は不可能でも、たとえば3分後、5分後、あるいは数時間後などは予測できる。これらは、SPSSやSASなどのツールを使えば実現できる世界です」(小島氏)

 ビッグデータ時代になり、ユーザーからの要求が高まっているのがこのマイニング系の分析だ。とはいえ、ビッグデータという膨大なデータを使って将来を予測しようとすると、SPSSやSASなどのツールだけではかなりの時間を要してしまう。たとえば、5分後、あるいは1時間後のことを予測したくても、それを正確に分析したいとなれば、半日以上の時間がかかってしまうかもしれない。これでは、たとえ正確な予測結果が得られても使い物にはならない。

 「たとえば5分後のことを知りたいのに、分析に4分30秒かかってしまう。これでは、結果を活用するのは難しいでしょう。それが、5秒で結果を得られれば、次なるアクションに結び付けられる。それを実現できるのが、Netezzaテクノロジーを踏襲したPureData System for Analytics(以下、PureData)なのです」(小島氏)

 当初のPureDataは、データウェアハウス・アプライアンスとして、どちらかと言えばレポーティング系の分析の超高速化に長けていた。それがいまは、アナリティクス・アプライアンスへと進化し、マイニング系の分析をも得意とする。それも、分析対象はビッグデータだ。通常、BI/BAツールで高度なマイニング系分析を行うには、ビッグデータすべてを利用するのではなくランダムサンプリングなどでデータを絞り込む必要がある。そうしないと、データ量が多すぎて時間がかかりすぎてしまうからだ。このデータを絞り込む作業だけでも、手間も時間もかかる。それが「サンプリングせずに、すべてのデータを対象にできます。それも、ボタン1つで簡単に分析できるのがPureDataです」と小島氏は言う。

PureDataはデータ処理に特化したスーパーコンピュータ

 ビッグデータを対象に超高速なマイニング系分析を可能としているのが、PureData独自のアーキテクチャだ。「そもそもデータ分析のことだけを考えたアーキテクチャです」と小島氏。特化しているので、すべてのシステム処理要求に、PureDataが対応できるわけではない。しかし、こと「分析」となれば、圧倒的な威力を発揮するのがPureDataアーキテクチャだ。

 特長の1つが、Field Programmable Gate Array(FPGA)の利用。FPGAは、ディスクからの読み取りデータを高速にストリーミングし、その過程で不要データをフィルタリングして除外する。これにより、分析処理でボトルネックとなるディスクI/Oを大幅に軽減し、大量データを極めて効率的に処理できる。

 もう1つが、非対称型超並列分散処理。通常のリレーショナル・データベースの並列処理は、数ノードからせいぜい10数ノード程度が現実的。それ以上ノードを増やしても、リニアに性能は向上しないのだ。PureDataの場合には「300ノード、400ノードと増やしてもボトルネックなしにリニアに性能が向上します」と小島氏は述べる。

 これは別の言い方をすれば「データ処理に特化したスーパーコンピュータのようなもの」だ。スーパーコンピュータは、アプリケーション処理を超並列化し、結果として超高速な処理を実現する。スーパーコンピュータでこの超並列処理を活用するには、独自のプログラミングを行う必要がある。

 PureDataの場合は、データ処理の並列化に特化したエンジンを持っている。それを利用するのに、特別なプログラミングは必要ない。SQLなどでデータ処理の手続きを記述すれば、自動でPureDataが超並列化し高速にデータ処理する。これは、データ処理に特化しているからこそ、実現できていることでもある。

 

【ホワイトペーパー資料】 無料公開中!!
~高度分析ソフトウェア・モジュール「IBM Netezza Analytics」を徹底解剖!~

*本記事でご紹介した「IBM Netezza Analytics」について詳しく解説したホワイトペーパー資料を無料でダウンロードいただけます。

資料ダウンロードはこちらから!

 

■資料の概要

『IBM Netezza Analytics

 ~PureData System for Analyticsが実現する高度分析プラットフォーム』

・仕様 : A4、8頁、ホワイトペーパー(PDF版)

・発行 : 日本アイ・ビー・エム

次のページ
「分析」をさらに高速化するIn-Database Analyticsの機能とは

この記事は参考になりましたか?

  • Facebook
  • Twitter
  • Pocket
  • note
DB Press連載記事一覧

もっと読む

この記事の著者

谷川 耕一(タニカワ コウイチ)

EnterpriseZine/DB Online チーフキュレーターかつてAI、エキスパートシステムが流行っていたころに、開発エンジニアとしてIT業界に。その後UNIXの専門雑誌の編集者を経て、外資系ソフトウェアベンダーの製品マーケティング、広告、広報などの業務を経験。現在はフリーランスのITジャーナリスト...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

【AD】本記事の内容は記事掲載開始時点のものです 企画・制作 株式会社翔泳社

この記事は参考になりましたか?

この記事をシェア

EnterpriseZine(エンタープライズジン)
https://enterprisezine.jp/article/detail/5105 2013/10/16 16:28

Job Board

AD

おすすめ

アクセスランキング

アクセスランキング

イベント

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング