SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

直近開催のイベントはこちら!

Security Online Day 2024 春の陣

2024年3月13日(水)10:00~17:10

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けの講座「EnterpriseZine Academy」や、すべてのITパーソンに向けた「新エバンジェリスト養成講座」などの講座を企画しています。EnterpriseZine編集部ならではの切り口・企画・講師セレクトで、明日を担うIT人材の育成をミッションに展開しております。

お申し込み受付中!

ビッグデータのリーサルウェポン!徹底解析GreenplumDB(AD)

データ分析プロセスを高速化するIn-Database分析技術

008

In-Database分析のためのオープンソースライブラリMADlib

 MADlibは、In-Database分析のためのオープンソースライブラリです。2012年2月にバージョン0.3がリリースされました。下記のサイトがMADlibのオープンソースプロジェクトのサイトです。

 MADlib

 MADlibの「MAD」の綴りは、「Magnetic(磁石のように引きつける)」「Agile(迅速な)」「Deep(深い)」の頭文字からとられています。MADlibはもともとGreenplum DBの開発エンジニアやデータサイエンティスト、カリフォルニア大学バークレー校の研究者が中心となり、「スケーラブルなIn-Database分析の新しいアプローチとはどうあるべきか」という議論から生まれたプロジェクトです。ストレージの容量あたりのコストが劇的に下がり、数多くのデータソースから桁違いの情報が集まるようになった現在、データ分析のやり方も従来のデータウェアハウス/BIアプリケーションで見られる、あらかじめ定められたデータソースから得られたデータに対する定型的な分析から、「多くのデータソースからデータ形式を気にせずデータを引きつけ(Magnetic)、迅速かつ動的にデータを展開・処理し(Agile)、サンプリングされていない生のデータに対して高度な分析アルゴリズムを適用することにより深い分析を行う(Deep)」というアプローチが重要になるという提言がなされました。

 この取り組みの成果は2009年に行われた大規模データベースに関する国際学会VLDBで論文として発表され、上記のような新しい分析のテクニックは「MAD Skills」として紹介されました。同時にこの考えに基づいた分析ライブラリをオープンソースとして開発するMADlibのプロジェクトも進められて行きました。

 MADlibはPostgreSQLおよびGreenplum DBに対応しており、高度な分析に必要な機能を利用することができます。表1にMADlibがサポートする主な分析機能を示します。

表1:MADlibがサポートする主な分析機能

その他の分析機能の利用 —— SAS, R, MapReduce

 Greenplum DBにはこれ以外にも、データベースに格納したデータを対象にMapReduceフレームワークを利用して分析する機能や、統計解析ソフトSASとの連携、PL/Rを利用したオープンソース統計解析ライブラリRの呼び出しなどの機能も備えています。

 MapReduceはHadoopプラットフォームで使われる分析フレームワークとして有名ですが、Greenplum DBではセグメントサーバで動作する並列実行エンジンがHDFS上のファイルの代わりにデータベース上のテーブルやセグメントサーバ上のファイルを入力として、並列にデータを処理するしくみを持っています。MapやReduceの処理ロジックはPerl、Python、Cで記述し、YAML形式で記述された処理の定義をgpmapreduceコマンドに渡すことで処理が実行されます。

 SASは1976年にノースカロライナ州立大学で開発がスタートした統計解析ツールで、現在は米SAS Instituteが世界的に展開しており、商用製品としてはデファクト・スタンダードの地位を占めています。統計解析だけではなく、予測分析、意思決定支援、マーケティング分析、経営管理、管理会計、サプライチェーン最適化、リスク管理といった様々なソリューションが幅広い業界向けに用意されています。

 SASの様々な分析機能をIn-Database技術を利用して高速化するソリューションとして、SAS In-Databaseという製品があります。従来からTeradataのデータウェアハウス・アプライアンスで利用可能でしたが、2011年後半にGreenplum DBでも同様に利用可能になりました。また、インメモリ処理の活用でさらに処理性能を高めたSAS High-Performance Analyticsという分析基盤製品もリリースされる予定です。大量のデータに対して、データベース内部で直接SASの高度な分析機能を適用できるため、事前のサンプリングを不要にし、分析にかかる時間を大幅に短縮することでより正確な予測モデルの開発・管理が可能となります。

 統計解析ソフトウェアの分野でSASが商用製品のスタンダードであるとすると、Rはオープンソース製品のデファクト・スタンダードです。Greenplum DBはRの各種機能をSQLからプロシージャとして呼び出すインターフェースPL/Rを利用して、Rの備える様々な機能を利用してデータベース上のデータを分析することができます。

 以上、連載8回に渡りGrennplum DBの様々な機能や技術背景、目指すところを解説してきました。「ビッグデータ」活用をめぐり、各企業の取り組みはまだまだ始まったばかりで、今後も大きな流れとなって新しい技術の登場や画期的な活用事例が増えてくることに疑いの余地はありません。Greenplum DBも次世代の統合分析基盤を支える製品としてさらなる進化への道を進み始めています。ぜひ今後ともGreenplum DBに注目していただければと思います。

次のページ
その他の分析機能の利用 —— SAS, R, MapReduce

この記事は参考になりましたか?

  • Facebook
  • Twitter
  • Pocket
  • note
ビッグデータのリーサルウェポン!徹底解析GreenplumDB連載記事一覧

もっと読む

【AD】本記事の内容は記事掲載開始時点のものです 企画・制作 株式会社翔泳社

この記事は参考になりましたか?

この記事をシェア

EnterpriseZine(エンタープライズジン)
https://enterprisezine.jp/article/detail/3905 2012/04/27 00:00

Job Board

AD

おすすめ

アクセスランキング

アクセスランキング

イベント

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

2024年3月13日(水)10:00~17:10

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング