SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

最新イベントはこちら!

Data Tech 2024

2024年11月21日(木)オンライン開催

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けの講座「EnterpriseZine Academy」や、すべてのITパーソンに向けた「新エバンジェリスト養成講座」などの講座を企画しています。EnterpriseZine編集部ならではの切り口・企画・講師セレクトで、明日を担うIT人材の育成をミッションに展開しております。

お申し込み受付中!

EnterpriseZine(エンタープライズジン)

EnterpriseZine編集部が最旬ITトピックの深層に迫る。ここでしか読めない、エンタープライズITの最新トピックをお届けします。

『EnterpriseZine Press』

2024年秋号(EnterpriseZine Press 2024 Autumn)特集「生成AI時代に考える“真のDX人材育成”──『スキル策定』『実践』2つの観点で紐解く」

ビッグデータのリーサルウェポン!徹底解析GreenplumDB(AD)

データベースとHadoopの連携

007

近年、大規模データ処理の新たな潮流として話題になることの多い分散処理プラットフォームHadoopですが、企業の中でどのようにHadoopを活用し、既存システムとの連携を考えるかということが大きな検討のテーマになってきています。HadoopはこれまでのRDB中心のデータ処理基盤とは異なるアプローチのシステムですが、両者を補完的に組み合わせることで、これまでは不可能であった大規模かつ柔軟なデータ活用の道が開けます。今回はGreenplum DBのHadoopとの連携機能をデータベース/Hadoopのアーキテクチャや用途の違いの観点を含めて解説します。

データベースとHadoopの連携

 Hadoopのしくみとデータベースシステムとの対比

 HadoopはGoogleの分散処理基盤システムを紹介した論文をもとに、Apacheコミュニティにて開発されたオープンソースの分散処理システムです。分散処理環境の構築に汎用ハードウェアを活用し、MapReduceと呼ばれる比較的シンプルな分散処理フレームワークを導入することにより、これまでは困難であった分散処理アプリケーション構築のハードルを大きく下げ、大規模データ処理の基盤として活用する事例も増えてきています。

 Hadoopのコアの部分は、Hadoop Distributed File System (HDFS) という分散ファイルシステムと、MapReduce分散処理フレームワークが密接に組み合わされて構成されています。Hadoopでデータを処理する場合には、まずデータはファイルとしてHDFS上に格納されますが、HDFSはデータを固定長のブロックに分割した上で複数のノードに分散して配置します。そしてHadoopジョブの実体であるJavaで記述されたMapReduceプログラムが各ノードに送られ、各ノードに配置されたデータブロックを入力として並列に処理を行います。

 ところでこのようなHadoopの処理のしくみを読んで、HadoopとGreenplum DBは結構似ているのではないかと思われる方がいるかもしれません。実際、汎用ハードウェアやLinuxをベースにスケールアウト型の処理基盤を構築する点や、データを完全分散するシェアードナッシング型のアーキテクチャに基づいている点、バッチ系の処理に大きな効果がある点などは共通しています。その意味で、両者ともビッグデータ時代の大規模データ処理基盤にふさわしい技術をベースにしていると言えます。

 一方で、大きく異なる点もあります。Greenplum DBはリレーショナルデータベースなので、テーブル構造や処理クエリをあらかじめ設計した上でデータをそれに合わせて格納するのが一般的です。また、すべての処理はトランザクションとして扱われ、データベースゆえにACIDの性質をもつことは大前提です。しかしながらHadoopでは、データ格納時は単にファイルとして扱われるだけなので、特に構造を定義しておく必要はありません。そしてMapReduceプログラムの実行時に初めてデータをどのように解釈して処理して行くかということが示されます。さらに、Hadoopの処理はACIDの性質を捨てることで分散処理における可用性や効率性を追求しています。 

次のページ
Greenplum DBとHadoop連携の例とメリット

この記事は参考になりましたか?

  • Facebook
  • X
  • Pocket
  • note
ビッグデータのリーサルウェポン!徹底解析GreenplumDB連載記事一覧

もっと読む

【AD】本記事の内容は記事掲載開始時点のものです 企画・制作 株式会社翔泳社

この記事は参考になりましたか?

この記事をシェア

EnterpriseZine(エンタープライズジン)
https://enterprisezine.jp/article/detail/3902 2012/04/26 00:00

Job Board

AD

おすすめ

アクセスランキング

アクセスランキング

イベント

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング