SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

最新イベントはこちら!

Data Tech 2024

2024年11月21日(木)オンライン開催

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けの講座「EnterpriseZine Academy」や、すべてのITパーソンに向けた「新エバンジェリスト養成講座」などの講座を企画しています。EnterpriseZine編集部ならではの切り口・企画・講師セレクトで、明日を担うIT人材の育成をミッションに展開しております。

お申し込み受付中!

EnterpriseZine(エンタープライズジン)

EnterpriseZine編集部が最旬ITトピックの深層に迫る。ここでしか読めない、エンタープライズITの最新トピックをお届けします。

『EnterpriseZine Press』

2024年秋号(EnterpriseZine Press 2024 Autumn)特集「生成AI時代に考える“真のDX人材育成”──『スキル策定』『実践』2つの観点で紐解く」

ビッグデータのリーサルウェポン!徹底解析GreenplumDB

GreenplumDBならではの機能、高速パラレルロード・アンロードの秘密

004


並列クエリオプティマイザ

 続いてGreenplumDB が実際にクエリの並列処理を行う時の肝となるクエリ実行プランについて解説します。

コストベース最適化アルゴリズムによるクエリ実行プランの決定

 GreenplumDBでは実行プランの作成にコストベースの最適化アルゴリズムを採用しています。コストベースとは、あらかじめデータベース内部に蓄積されたデータ配置に関する統計情報をもとに、クライアントからのクエリを受け付けた際に、内部で幾つか候補となるクエリ実行プランを作成し、その中で最も効率の良い(実行コストの低い)クエリ実行プランを実行するという方式です。このようなクエリ実行プランの作成は全てマスターサーバ上で行われ、作成が終わった時点でマスターサーバからセグメントサーバへクエリ実行プランが転送され、クエリ処理の実行が指示されます。

「モーション」操作: ギャザー、リディストリビュート、ブロードキャスト

 GreenplumDBでは、クエリ実行プランは、各セグメントインスタンスが並列で処理できるクエリ実行プランのサブセットに分けられ、このサブセットは「スライス」と呼ばれています。スライスはさらに小さな単位「ノード」に分けられます。ノードの種類には、テーブルのシーケンシャルスキャンやインデクススキャン、ハッシュ集約と言った一般のデータベースが行う処理に加え、セグメントサーバ同士やセグメントサーバとマスターサーバ間でネットワークインタコネクトを介してデータの送受信を行う処理があり、これらの送受信の処理は「モーション」と名付けられています。

 モーションには、3種類のデータ送受信の方式があります。ギャザーモーションはセグメントサーバからマスターサーバへの転送で、セグメントサーバでの処理が全て終わった後、最後にマスターサーバへ結果を渡す時に行われる処理です。リディストリビュートモーションとブロードキャストモーションは、セグメントサーバ同士でデータの送受信を行う時に行われる処理です。リディストリビュートモーションはテーブルを特定のハッシュキーを使用してセグメントサーバ間にハッシュ分散し、ブロードキャストモーションではテーブルの全レコードを各セグメントサーバ上に転送します。どちらを採用するかは、テーブルのレコード数やその後の処理に応じて並行クエリオプティマイザが判断します。

パラレルデータフローエンジンと標準SQLの対応

 クエリ実行に際して、GreenplumDBの各セグメントインスタンスはノード間で依存関係がない場合、複数のノードを同時に処理していきます。例えば、シーケンシャルスキャンをテーブルに対して実施しながら、スキャンされたデータに対してハッシュ結合を行います。またリディストリビュートモーションでデータレコードをセグメントインスタンス間で転送しながら、各セグメントインスタンスはハッシュ集約を行います。このようにノードの処理がすべて完了するのを待たずに、得られたデータレコードを次のノードへと引継いでいきます。この際、各ノードの処理結果のデータレコードはセグメントインスタンスのローカルディスクに保存されることなく、メモリ上で保持されたまま、次のノードへ渡されていきます。このデータレコードがメモリ経由で処理されていく仕組みは「パラレルデータフローエンジン」により実装されています。

 なお、ユーザが使用する言語は標準のSQLであり、ANSI SQL92、99、2003、2008 に準拠していれば、モーションやパイプラインを意識したクエリ実行プランの作成は GreenplumDB のマスターサーバが自動的に行います。このためユーザが処理の並列化を意識する必要はありません。

 次回は、データのストア方式について解説します。昨今、トランザクション処理に加えてデータ分析や集計処理の高速化に対する要求が高まるにつれ、データのストア方式についての議論も盛んに行われるようになってきています。最近の技術動向に加え、GreenplumDBの持つ柔軟な機能についてご紹介します。

この記事は参考になりましたか?

  • Facebook
  • X
  • Pocket
  • note
ビッグデータのリーサルウェポン!徹底解析GreenplumDB連載記事一覧

もっと読む

この記事の著者

中村 完()

EMCに勤務するGreenplumのテクノロジーエバンジェリスト。2000年より外資ITベンダーにてサーバ、ストレージ、UNIX、データベースの技術提案活動に従事。 2007年 Greenplumと出会い、以来 Greenplumの提案活動を展開。縁あって 2010年9月に EMC社へ入社。好きな食...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

EnterpriseZine(エンタープライズジン)
https://enterprisezine.jp/article/detail/3682 2012/02/10 18:28

Job Board

AD

おすすめ

アクセスランキング

アクセスランキング

イベント

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング