エンタープライズレベルのHadoopディストリビューションからコンバージド・データ・プラットフォームへ進化したMapR
MapRはいま、Hadoopにこだわるのではなく「コンバージド・データ・プラットフォーム」を提供する会社へと進化している。そのため、かつての象徴だったゾウを取り除いたのだ。もともとMapRは、HadoopのファイルシステムであるHDFS互換のMapRファイルシステムを提供することでHadoopの機能をエンタープライズレベルで使えるように拡張した製品を提供してきた。つまりオープンソースベースのHadoopの仕組みを提供しているHortonworksなどとは、少し異なるアプローチのHadoopベンダーだったのだ。
MapRでは、どちらかと言えばバッチ処理に向くHadoopのフレームワークに対し、さまざまな機能を追加することでリアルタイムな処理もできるようにしている。
「テーブルの機能をファイルシステムに持たせたり、オペレーショナル・リアルタイムに対応するNoSQLのエンジンも加えたりしていました。またさまざまなデータソースに対しSQLアクセスを提供するApache Drillも提供しています。もちろんSparkもやっているし、データを入れる入り口のところでストリームデータをリアルタイムに処理するKafkaの機能もファイルシステムに取り入れています。これがあることで別途Kafkaのクラスターを構築せずにストリームデータの処理が行えます」
こう語るのは、マップアール・テクノロジーズ アライアンス&プロダクトマーケティング ディレクターの三原 茂氏だ。
MapRではHadoopのフレームワークに機能追加したというよりも、同時のファイルシステムの上にデータ基盤を1つのプラットフォームとして統合している。そしてこれをコンバージド・データ・プラットフォームと呼ぶことにしたという。
「Hadoopのフレームワークという切り口で見れば競合になるベンダーはあるが、統合化されたデータ基盤となればMapRにライバルはいない」と三原氏。
コンバージド・データ・プラットフォームを強化するバージョンアップ
MapRでは、2017年5月15日に最新版の「MapR v5.2.1」の提供を開始した。さらにApache DrillやSpark、Hive、Myriadなど、さまざまな機能とHadoopコアの互換性を確保しすぐに使えるよう調整済みのものをパッケージ化した「MapR Ecosystem Pack 3.0」も同時リリースしている。前者はバグフィックスが主となるマイナーバージョンアップだが、後者はメジャーバージョンアップでまさにコンバージド・データ・プラットフォームを具現化し強化する更新になっている。
特にSQL on Hadoopの機能が大きく進化した。Apache Drillは1.10に、Hiveも2.1.1に対応した。最新のHive 2.1.1ではTez 0.8.4をサポートしたことでHive on Tezが可能となり、Map Reduceよりも柔軟かつ効率的に分散処理を実行できるようになっている。
「Map Reduce処理の繰り返しでは、中間ファイルの書き出しが入るので性能が出ませんでしたが、Hive on Tezとなったことでパイプライン処理で中間ファイルにいちいち書き出すことなく並列処理が可能となりました」と言うのは、ソリューション・アーキテクトの岡 昌孝氏だ。
またDrill 1.10ではBIツールのTableauとネイティブに接続できるようにもなっている。さらにクライアントとMapRのデーモンである「Drillbit」間で「ケルベロス/MapR-SASL」によるクライアント認証と暗号化をサポートした。もう1つ「CREATE TEMPORARY RABLESコマンド」をサポートしたことで、BIツールなどからのアクセスに対しテンポラリーテーブルを自動で作って、データをDrill経由のSQLで取得することも容易になっている。