MEPは、「MapRコンバージド・データ・プラットフォーム」上で利用可能な互換性が保証されたさまざまなOSSプロジェクトの製品で構成されている。MEP3.0では、Sparkのセキュリティ拡張およびMapR-DBとHBaseへ接続、Drillのアップデート、そして、Hiveの高速化といった機能強化が行われているという。
MEPは、複数のコミュニティプロジェクトやバージョン間の互換性に関する問題の複雑性を排除するという。MapRは、Apache Drill、Spark、Hive、Myriad等といったオープンソースプロジェクトを開発、テスト、統合している。最新版の「MapR Ecosystem Pack 3.0」には、次の機能が含まれる。
●Apache Spark 2.1.0
Spark 2.1では下記を含めたエンタープライズグレードの安定性とセキュリティが主な強化点となる。
- 拡張性の高いパーティションハンドリング
- データ型APIの安定化
- Spark2.xでの1,200を超えるバグ修正
-
Kerberosに加えて、MapR-SASL接続
- Spark Thriftサーバーへの接続
- Hive MetastoreへのSpark接続 - ELECT構文の発行時のインパーソネーション
●MapR-DB JSONのNative Spark Connector
MapR-DB JSONのNative Spark Connectorは、SparkまたはSpark Streamingを活用し、データとMapR-DBとを直接接続するリアルタイムまたはバッチでのパイプラインを簡単に構築することができる。高効率かつ簡潔にコード開発ができるようにデザインされたNative Spark Connectorには以下のものが含まれる。
- MapR-DB JSONのテーブルとSpark RDDの間でデータをロードしあうことができる2つの新しいAPI
- より良いパフォーマンスのためのカスタムデータパーティショナー
- MapR-DB読み込み時にSpark executorsを実行する際のデータローカリティ
●Spark-HBaseとMapR-DB Binary Connector
新しいSpark-HBase Connectorは、SparkでMapR-DBバイナリテーブルを使用した書き込みアプリケーションをサポートする。
- MapR-DBへの一括挿入
- Spark SQL でのMapR-DB検索
●Apache Drill 1.10
今回のリリースでは、BIツールの最適化、エンドポイントセキュリティ、パフォーマンス、ユーザビリティに関し、大規模なアップデートを行った。ポイントは以下の通り。
- Tableauネイティブ接続
- TEMPORARY TABLE AS (CTTAS)のコマンドのサポート
- Clientとdrillbit間におけるKerberosとMapR-SASLの認証のサポート
- Hue 3.12からの検索機能(実験的試行)
- HiveとSparkで生成されたParquet ファイルの互換性の向上
- クエリ診断の向上
- 110個におよぶバグ修正とその他の改善
●Apache Hive 2.1.1
MEP 3.0には、データ処理タスクの速度を大幅に改善し、インタラクティブクエリの待ち時間を短縮し、バッチクエリのスループットを向上させるHiveの高速バージョンが提供される。その他の主な改善点は以下の通り。
- より高性能なCost-Based Optimizer(CBO)により実現した2倍速のETL、高速データ型変換と動的パーティション・プルーニング
- 新しい診断・監視ツールを伴った新しいHiveServer UI
- 動的に分割されたハッシュ結合により、ソートされていない入力でも結合処理が可能になり、ソート処理を排除
●MapR Streams C Applications
MapR 5.2.1から、MapR StreamsのCのアプリケーションを開発することが可能。MapR Streams C Clientは、MapR Streamsと統合されるlibrdkafkaのディストリビューション。
●MapR Streams Python Applications
MapR 5.2.1から、MapR Streams Python clientを使ったMapR Streamsのためのpythonアプリケーションを作成することができる。The Streams Python clientは、librdkafkaのバインディングであり、ハイレベルな要望をサポート。