ビッグデータ分析に力を発揮するGreenplum の機能
それでは最後に、ビッグデータ分析の観点において重要なGreenplumDBの機能をご紹介します。
機能 | 説明 |
Greenplum Scatter/Gather Streaming | 外部データソースから並列データローディングを可能し、かつ、スケーラビリティを実現している機能です。ビッグデータ時代は、大容量データの高速な受け渡しが重要なポイントとなります。 |
並列クエリオプティマイザ | コストベース最適化アルゴリズムにより、分散されたデータの配置とノード間のデータ移動を考慮したクエリ実行プランの決定を行います。 |
パラレルデータフローエンジン | 各セグメントサーバで稼働するパラレルデータフローエンジンは最適化されたパイプライン処理を可能にし、高速なレスポンス性能と効率的なシステムリソースの利用を促進します。 |
Greenplum Polymorphic Data Storage | 集計処理の高速化、I/O負荷の軽減や圧縮効率化を可能にするデータ格納方式のカラムストアを選択可能、また、テーブルやテーブルパーティションごとにローストアとカラムストアを最適に使い分けることも可能です。 |
リソースキューと動的クエリ優先度管理 | 複数の利用者・バッチ処理での同時利用のためのワークロード管理機能となります。同時接続ユーザが多い場合でもクエリ処理に関する優先順位付けを行い、組織全体として満足度の高いシステムを構築することが可能です。 |
オンラインシステム拡張 | システムを稼働させたままノードの追加を行うことができます。必要に応じて柔軟にシステムを拡張していくことが可能です。 |
In Database分析ライブラリのサポート | 行列演算、重回帰分析、Naive Bayes分類などの組み込み関数やオープンンソース分析ライブラリMADLibおよびRのサポート、SAS/SPSS/Alpine Minerなどの商用製品が提供する高度な分析ソリューションとの連携にも対応しています。 |
機能の詳細説明については次回以降に譲りますが、これ以外にも様々な機能が標準で備わっており、前回ご紹介したコミュニティエディションをダウンロードして体験いただくことが可能ですので是非お試し下さい。
次回は、Greenplum DBが採用している「シェアードナッシングアーキテクチャ」について一般的な商用RDBMSと比較しながら解説し、どのようにして高速性とスケーラビリティを実現しているのかについて「データ分散と並列処理」にフォーカスを当ててより詳細に解説いたします。