SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

最新イベントはこちら!

Data Tech 2024

2024年11月21日(木)オンライン開催

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けの講座「EnterpriseZine Academy」や、すべてのITパーソンに向けた「新エバンジェリスト養成講座」などの講座を企画しています。EnterpriseZine編集部ならではの切り口・企画・講師セレクトで、明日を担うIT人材の育成をミッションに展開しております。

お申し込み受付中!

EnterpriseZine(エンタープライズジン)

EnterpriseZine編集部が最旬ITトピックの深層に迫る。ここでしか読めない、エンタープライズITの最新トピックをお届けします。

『EnterpriseZine Press』

2024年秋号(EnterpriseZine Press 2024 Autumn)特集「生成AI時代に考える“真のDX人材育成”──『スキル策定』『実践』2つの観点で紐解く」

めざせ!Hadoopエンジニア

めざせ!Hadoopエンジニア―開発者編―

大規模データを処理するための基盤の一つとして、分散処理プラットフォームであるHadoopが広く使われるようになり、その勢いは世界中で加速しています。一方、大規模データの分析、活用のための人材不足が深刻化し、人材育成が急務となっている企業も少なくありません。本記事では、大規模データ処理基盤として注目されているHadoopの歴史と共に、Hadoopのスキルを客観的に証明できるHadoop認定プログラムを前/後編に分けて紹介します。

Hadoopが注目される理由

 ハードウェアの進化に伴ってサーバの性能は年々向上しています。ムーアの法則にあるように、その中でもCPUなど半導体の性能は著しく向上しています。

 一方でハードディスクの性能はこれに追いついておらず、データの読み書き時には待ち状態になってしまう場合もあるでしょう。 つまり、データ量が多ければ多いほど、待ち状態がボトルネックとなってしまうのです。ガートナーによると、「全世界の情報量は、年間で最低でも59%という高率で増加している」とのことですが、これほどの勢いで増え続けるデータを処理するには、もはや今までのようにハードウェアの進化だけに頼っているわけにはいかないのです。そこで改めて見直されたのが、分散処理技術でした。

 Googleでは1990年代後半から、上記の問題点を解決するために汎用のハードウェアを使用した独自の分散処理基盤システムを構築し、2000年代前半に2つの論文を公開しました。まず2003年に分散ファイルシステムである「GFS」(Google File System)について、次に2004年、分散処理の仕組みである「MapReduce」について論文を発表したのです。

 以前からMPI(Message Passing Interface)などを使用して分散処理プログラムを記述することは可能でしたが、プログラムが大規模になるに従い複雑化し、エラー処理や障害処理などを記述するのが困難でした。Googleのアプローチは、部分障害やリカバリ、一貫性等を解決する新しいアプローチだったのです。

 分散ファイルシステムではファイルを一定のサイズに分割し、分散して複数のサーバに格納しておき、並列で読み出すことでスループットを向上します。分散処理技術では、この分割されたファイルを複数のサーバで並列処理することで、スケールアウトすることができます(図1参照)。

図1:データ処理に対するスケールアップ・スケールアウトのアプローチ
図1:データ処理に対するスケールアップ・スケールアウトのアプローチ

 この論文を見たDoug Cutting氏(現Cloudera・チーフアーキテクト)が自身のプロジェクト用にJavaで実装し、オープンソースで公開したのがHadoopの始まりです。その後、Apache財団の独立したプロジェクトとして開発が続けられており、Hadoop分散ファイルシステムである「HDFS」(Hadoop Distribution File System)と、比較的シンプルな分散処理フレームワークであるMapReduceを使用することで、障害対応などはすべてHadoop側に任せられるようになり、従来は困難だった大規模な分散システムを構築することができるようになりました(図2参照)。一般の企業ではそれほど大規模な分散環境は必要ありませんが、Hadoopの現バージョンでは1万台を超える規模でのクラスタを構築することができます。

図2 近年の課題とHadoop
図2 近年の課題とHadoop

 Hadoopは、海外ではすでに多くの企業のデータ処理に広く利用されています。大手企業や各ベンダーも次々とHadoopに対応した製品をリリースし、さまざまな企業間で提携しているというニュースを耳にしたことがあるかもしれません。Hadoopは研究、調査目的ではなく、すでに企業の中で普通に利用されている技術となっているのです。

次のページ
受講者数急増のHadoopトレーニングと認定プログラム

この記事は参考になりましたか?

  • Facebook
  • X
  • Pocket
  • note
めざせ!Hadoopエンジニア連載記事一覧

もっと読む

この記事の著者

川崎 達夫(カワサキ タツオ)

Cloudera株式会社 
エデュケーションサービス 
マネージャー兼シニアインストラクター2011年よりClouderaに勤務し、日本でのHadoop研修ビジネスの立ち上げに従事。従来よりOSSに強い関心を持っており、前職のRed Hat社ではカーネルインターナルやデバイスドライバ、パ...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

EnterpriseZine(エンタープライズジン)
https://enterprisezine.jp/article/detail/4020 2012/06/21 00:00

Job Board

AD

おすすめ

アクセスランキング

アクセスランキング

イベント

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング