その他の分析機能の利用 —— SAS, R, MapReduce
Greenplum DBにはこれ以外にも、データベースに格納したデータを対象にMapReduceフレームワークを利用して分析する機能や、統計解析ソフトSASとの連携、PL/Rを利用したオープンソース統計解析ライブラリRの呼び出しなどの機能も備えています。
MapReduceはHadoopプラットフォームで使われる分析フレームワークとして有名ですが、Greenplum DBではセグメントサーバで動作する並列実行エンジンがHDFS上のファイルの代わりにデータベース上のテーブルやセグメントサーバ上のファイルを入力として、並列にデータを処理するしくみを持っています。MapやReduceの処理ロジックはPerl、Python、Cで記述し、YAML形式で記述された処理の定義をgpmapreduceコマンドに渡すことで処理が実行されます。
SASは1976年にノースカロライナ州立大学で開発がスタートした統計解析ツールで、現在は米SAS Instituteが世界的に展開しており、商用製品としてはデファクト・スタンダードの地位を占めています。統計解析だけではなく、予測分析、意思決定支援、マーケティング分析、経営管理、管理会計、サプライチェーン最適化、リスク管理といった様々なソリューションが幅広い業界向けに用意されています。
SASの様々な分析機能をIn-Database技術を利用して高速化するソリューションとして、SAS In-Databaseという製品があります。従来からTeradataのデータウェアハウス・アプライアンスで利用可能でしたが、2011年後半にGreenplum DBでも同様に利用可能になりました。また、インメモリ処理の活用でさらに処理性能を高めたSAS High-Performance Analyticsという分析基盤製品もリリースされる予定です。大量のデータに対して、データベース内部で直接SASの高度な分析機能を適用できるため、事前のサンプリングを不要にし、分析にかかる時間を大幅に短縮することでより正確な予測モデルの開発・管理が可能となります。
統計解析ソフトウェアの分野でSASが商用製品のスタンダードであるとすると、Rはオープンソース製品のデファクト・スタンダードです。Greenplum DBはRの各種機能をSQLからプロシージャとして呼び出すインターフェースPL/Rを利用して、Rの備える様々な機能を利用してデータベース上のデータを分析することができます。
以上、連載8回に渡りGrennplum DBの様々な機能や技術背景、目指すところを解説してきました。「ビッグデータ」活用をめぐり、各企業の取り組みはまだまだ始まったばかりで、今後も大きな流れとなって新しい技術の登場や画期的な活用事例が増えてくることに疑いの余地はありません。Greenplum DBも次世代の統合分析基盤を支える製品としてさらなる進化への道を進み始めています。ぜひ今後ともGreenplum DBに注目していただければと思います。