EnterpriseZine(エンタープライズジン)

EnterpriseZine(エンタープライズジン)

テーマ別に探す

MapRのロゴからゾウがいなくなった理由

edited by DB Online   2017/07/07 06:00

同じHadoop on SQLでも技術によって特徴あり

 今回のMapR Ecosystem Packの更新により、MapRを使えばSQL on Hadoopをさまざまな方法で実現できるようになった。従来のHive、Hive on Tez、Spark SQL、Impala、Drill、MapR-DB + Drillなどの方法を、同じMapRのプラットフォームで実現できるのだ。

 「Hiveは既に長く利用されており、これをHive on Tezにするだけで速くなります。さらにMapRファイルシステムにそれを載せたらもっと速くなります」と岡氏。今後はHive on Tezが標準になり、既存システムのバッチ処理の効率化にはうってつけだと語る。

 一方でBIのようなリアルタイムなクエリに対しては、HiveからHive on Tezになってもそれほど性能は向上しないだろうと。実際に1クライアントからのクエリ性能を比較すると、Hive on TezよりもSpark SQL、Drillのほうが圧倒的に処理時間は短くなっている検証結果も出ている。

★★資料PPT11枚目「検証2:BIレポート単体クエリ処理時間」★★
BIレポート単体クエリ処理時間

 ではSpark SQLとDrillにはどのような差があるのか。クライアントが増え接続するセッション数が増えると性能に差が出るようだ。単体、10、20、30とセッション数を増やした際の平均応答時間をSpark SQLとDrillで比較すると、Drillはセッション数の増加に応じてリニアに性能は劣化する。一方Spark SQLはセッション数が増えると性能劣化がどんどん激しくなる傾向を示した。

 「これはリクエストも処理結果も、1つのThriftサーバーを通るので、Spark SQLではThriftサーバーがボトルネックになっているのでしょう」と岡氏は説明する。

★★資料PPT12枚目「検証3:BIレポート同時実行クエリ処理時間」★★
BIレポート同時実行クエリ処理時間

 「Drillは接続数の増加に応じてリニアに性能が劣化するので、適宜処理ノードを増やしてやれば性能劣化を抑制できるでしょう。Drillがこういった性能特性を持っていることが、Tableauのネイティブコネクトの機能をDrillに加えている理由の1つです」(岡氏)

新たに登場する技術を的確に見極めるスキル

 Hadoopのファイルシステムに蓄積されたデータにSQLを使ってアクセスすると言ってもさまざまな方法があり、方法ごとに特性があるのが分かる。現状、既にHiveベースで動いているバッチ処理の仕組みならば、Hive on Tezに置き換えることでかなりの高速化が図れる。この際、特にバッチ処理側でコード変更する必要もないので、既存のバッチ処理高速化であればHive on Tezは良い選択肢となるだろう。

 Drillは、定型、非定型、スキーマレス・アクセスなど対象となるシステムの幅は広そうだ。よりDrillに向いているのはバッチ処理よりもデータ量があまり多くないものからデータを取り出す処理だろう。さらにDrillにMapR−DBを組み合わせれば、よりリアルタイムに近い検索処理も十分可能な性能が発揮できる。

 「同じHadoop on SQLでも、それぞれ特長があります。Spark SQLのボトルネックのように、場合によっては弱点となる傾向も見られます。こういったことも含めて、エンジニアは認識しておく必要があるでしょう」と三原氏。MapRのファイルシステムを使っていれば、これらさまざまな方法を1つのプラットフォームで利用できる。なので、エンジニアは自分の手でさまざまな方法を実際に試すことも容易だとも言う。

 Hadoopに関わる技術は、かなりこなれてきたところもある。既に数年にわたり使い、慣れて安心して使える技術もエンジニアごとにあるかもしれない。とはいえ技術の進化は速い。エンジニアはしっかりと情報のアンテナを張り、自らの手でも確かめながら賢く技術を使い分けるスキルを持ちたいところだろう。



著者プロフィール

  • 谷川 耕一(タニカワ コウイチ)

    EnterpriseZine/DB Online チーフキュレーター かつてAI、エキスパートシステムが流行っていたころに、開発エンジニアとしてIT業界に。その後UNIXの専門雑誌の編集者を経て、外資系ソフトウェアベンダーの製品マーケティング、広告、広報などの業務を経験。現在はフリーランスのITジャーナリストとして、クラウド、データベース、ビッグデータ活用などをキーワードに、エンタープライズIT関連の取材、執筆を行っている。

  • DB Online編集部(ディービーオンライン ヘンシュウブ)

    DB Online編集部 翔泳社 EnterpriseZine(EZ)が提供するデータベース/データテクノロジー専門メディア「DB Online」編集部です。皆様からの情報お待ちしています。 Twitter : https://twitter.com/db_online Facebook : http://www.facebook.com/dbonline.shoeisha

バックナンバー

連載:DB Press

もっと読む

All contents copyright © 2007-2021 Shoeisha Co., Ltd. All rights reserved. ver.1.5