SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

直近開催のイベントはこちら!

EnterpriseZine編集部ではイベントを随時開催しております

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けの講座「EnterpriseZine Academy」や、すべてのITパーソンに向けた「新エバンジェリスト養成講座」などの講座を企画しています。EnterpriseZine編集部ならではの切り口・企画・講師セレクトで、明日を担うIT人材の育成をミッションに展開しております。

お申し込み受付中!

DB Press(AD)

PureDataが3つのラインナップで登場した理由は、IBMが長い歴史から学んできた思想にある。

PureData System for Analyticsは定評あるNetezzaテクノロジーを踏襲

 PureData for Analyticsは、データウェアハウス・アプライアンスとして実績の高いNetezzaがベースだ。こちらは、データウェアハウスなどの大量データ分析に向く、シェアードナッシング型アーキテクチャをとっている。とはいえfor Analyticsは、単純なシェアードナッシング型ではない。ある意味、シェアードナッシングとシェアードディスクの良いところを組み合わせた構造となっている。

 各ディスクには、直結する形でサーバーが配置される。これはMPP(超並列処理)層と呼ばれ、シェアードナッシングの構造だ。for Analyticsでは、この上にMPP層を束ねるSMP層が配置される。MPP層のCPUとメモリ、FPGA、そしてディスクという組み合わせを1つのインテリジェントなディスクと捉えれば、SMP層はディスクを共有する構造となる。このシェアードディスクとシェアードナッシングを組み合わせることで、高速な処理と管理の容易さを両立している。

 さらにfor Analyticsの高速処理で肝となるのが、各ノードに配置されているFPGAだ。FPGAはField Programmable Gate Arrayの略。平たく言えば、プログラムの書き換えが可能な、高速なLSI(半導体集積回路)だ。CPUはプログラムを読み込んで汎用的な処理を行う が、FPGAでは特定の処理を行う。For Analyticsでいう特定の処理とはデータベース処理である。FPGAではディスクからのデータ読み取り速度で、ストリーミング-読出しデータをディスクやメモリーに滞留させることなく-、データベース処理できるのだ。

 FPGAがストリーミングで行う処理は、圧縮データの解凍、データの絞り込み、カラムの絞り込み、関数、SQLロジック、JOINなどのデータベース処理だ。そのため、ディスクからメモリへとデータが渡されるまでのほんの短い間に、これらの処理が済んでしまう。CPUは渡された結果だけを用い、残りのデータベース処理をすればいい。これに対し汎用的なデータベースでは、ディスクからメモリに必要データをすべて読み込み、その上で圧縮の解凍、データやカラムの絞り込みなどの処理をCPUで行わなければならない。このFPGAによる事前のストリーミング処理による性能差は、かなり大きなものとなる。

【FPGAによるストリーミング処理】
インテリジェント・クエリー・ストリーミング技術
PureDataAnalyticsのFPGAを使用したデータベース処理 
I/OのREAD処理でストリーミング中にデータベース処理の解凍、
行読み込み、列読み込み、SQL関数などが可能
FPGAによるストリーミング処理 インテリジェント・クエリー・ストリーミング技術 PureDataAnalyticsのFPGAを使用したデータベース処理 I/OのREAD処理でストリーミング中にデータベース処理の解凍、行読み込み、列読み込み、SQL関数などが可能
【汎用的なコンピュータ技術によるデータベース処理】
I/O処理はあくまでデータをメモリーに移動させる手段 
解凍、行読み込み、列読み込み、SQL関数などはメモリーに保持した“止まった”データに対して
CPUで処理を実施
汎用的なコンピュータ技術によるデータベース処理 I/O処理はあくまでデータをメモリーに移動させる手段 解凍、行読み込み、列読み込み、SQL関数などはメモリーに保持した“止まった”データに対してCPUで処理を実施

 さらにfor Analyticsでは、検索処理だけでなく分析ロジックも取り込んでいる。通常の分析環境では、データウェアハウスとは別に分析用サーバーを用意し、その上で高度な統計処理などを行う。そうなれば、分析用のサーバーに必要なデータを抽出し渡す必要がある。これでは、ビッグデータそのものを分析対象にはできず、集計データやサンプル抽出したデータしか使えない。つまりは、真のビッグデータ分析とはならないのだ。

 for Analyticsでは、最近注目されているR言語分析、IBM SPSSのデータマイニングや予測分析、空間・地図分析などの分析ロジックをあらかじめ内包している。なので、高速なアプライアンスサーバーの中で、ビッグデータに対しこれらの分析を行える。分析ロジックは、あらかじめ用意したものだけでなくユーザーなどが独自開発したものも取り込める。

 FPGAによるストリーミング処理や分析ロジックそのものを取り込んでいることにより、チューニングやインデックス作成などの面倒な作業は必要ない。このように、大量データの分析に特化しているのが、PureData System for Analyticsなのだ。

次のページ
トランザクションでデータを蓄積しながらリアルタイムに分析するニーズに応える

この記事は参考になりましたか?

  • Facebook
  • Twitter
  • Pocket
  • note
DB Press連載記事一覧

もっと読む

この記事の著者

谷川 耕一(タニカワ コウイチ)

EnterpriseZine/DB Online チーフキュレーターかつてAI、エキスパートシステムが流行っていたころに、開発エンジニアとしてIT業界に。その後UNIXの専門雑誌の編集者を経て、外資系ソフトウェアベンダーの製品マーケティング、広告、広報などの業務を経験。現在はフリーランスのITジャーナリスト...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

【AD】本記事の内容は記事掲載開始時点のものです 企画・制作 株式会社翔泳社

この記事は参考になりましたか?

この記事をシェア

EnterpriseZine(エンタープライズジン)
https://enterprisezine.jp/article/detail/4405 2013/02/28 18:21

Job Board

AD

おすすめ

アクセスランキング

アクセスランキング

イベント

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング