SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

最新イベントはこちら!

Data Tech 2024

2024年11月21日(木)オンライン開催

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けの講座「EnterpriseZine Academy」や、すべてのITパーソンに向けた「新エバンジェリスト養成講座」などの講座を企画しています。EnterpriseZine編集部ならではの切り口・企画・講師セレクトで、明日を担うIT人材の育成をミッションに展開しております。

お申し込み受付中!

EnterpriseZine(エンタープライズジン)

EnterpriseZine編集部が最旬ITトピックの深層に迫る。ここでしか読めない、エンタープライズITの最新トピックをお届けします。

『EnterpriseZine Press』

2024年秋号(EnterpriseZine Press 2024 Autumn)特集「生成AI時代に考える“真のDX人材育成”──『スキル策定』『実践』2つの観点で紐解く」

ビッグデータのリーサルウェポン!徹底解析GreenplumDB(AD)

データベースとHadoopの連携

007

Greeplum DBのHadoop連携における外部テーブルの定義とデータ移動のしくみ

 リレーショナルデータベースとHadoopの間の連携にはさまざまなパターンがあります。最近ではどのデータベース/データウェアハウスベンダーもHadoopとの連携に力を入れて機能を用意しておりますが、製品によってそのしくみは異なるため、実際にはデータの転送時間や使い勝手で差が出てきます。特に両者間でデータアクセスを行う場合にどのような連携方法があるか、以下の3つのパターンを見てみましょう。

 1. データベースからデータをファイルにダンプし、Hadoopの転送コマンド(実質的にはJava APIを経由)でファイルをHadoopのファイルシステムに投入する

 どの製品でも対応可能な非常にシンプルな方法ですが、データを一時格納するためのファイルシステム領域が必要です。また、データベースからのデータのダンプ、Hadoopへの転送の両方がボトルネックとなり得るため(特にJavaプロセスがボトルネックとなりがち)、性能はあまりよくありません。

 2. Hadoop上でSqoopを利用して並列にデータを転送する

 Hadoopで動作するデータのインポート/エクスポートツールSqoopを利用してデータを転送する方法です。データベース製品側でSqoop対応を明示している場合もありますし、JDBCで接続することも可能です。データの一時ストレージが不要で、MapReduceジョブとして多数のプロセスで並列にデータアクセスを行うため、効率的に転送を行うことができます。ただし、データベース側の処理が完全には並列化されていないケースも多く、さらにMapReduceジョブが起動されるため一定の時間的なオーバーヘッドを計算に入れておく必要があります。

 3. Hadoopファイルシステムを対象としたGreenplum DBのパラレルローディング

 Greenplum DBはHadoopのHDFS上にあるデータのアクセスに、通常のデータのパラレルローディングと同じしくみを利用します。Greenplum DBの複数のセグメントサーバは、HDFS内部で分散配置されているデータブロックをHDFS APIを介して並列に直接アクセスするため、ボトルネックのない効率的なデータアクセスを実現しています。データベース上ではHDFS上のファイルは外部テーブルのデータソースとして抽象化されているため、開発者はSQLで外部テーブルに対する処理を記述するだけで、Hadoopを意識することなくデータを利用できます。

Greenplum DBとHadoopの連携
Greenplum DBとHadoopの連携

 このように、Greenplum DBのユニークなHadoop連携機能を利用することで、データベースとHadoopをシームレスに連携することが可能になり、データ活用の幅が大きく広がります。

さて、次回はいよいよ連載最終回。高度な統計解析分析を可能にし、処理のスケーラビリティを向上させるIn-Database分析技術について触れてみたいと思います。

この記事は参考になりましたか?

  • Facebook
  • X
  • Pocket
  • note
ビッグデータのリーサルウェポン!徹底解析GreenplumDB連載記事一覧

もっと読む

【AD】本記事の内容は記事掲載開始時点のものです 企画・制作 株式会社翔泳社

この記事は参考になりましたか?

この記事をシェア

EnterpriseZine(エンタープライズジン)
https://enterprisezine.jp/article/detail/3902 2012/04/26 00:00

Job Board

AD

おすすめ

アクセスランキング

アクセスランキング

イベント

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング