「Syncsort DMExpress」は、高性能なデータ統合処理やバッチ処理を簡単に開発できるETLツール。独自のスマートETLオプティマイザを搭載した自動チューニング機構により、処理対象のデータ分析とシステムリソース分析を行い、最適なアルゴリズムを組み合わせてETL処理を実行する。
そのため、テスト運用での性能改善やチューニングに工数をかけることなく、ノンプログラミング&ノンチューニングで高品質/高性能なETL処理を開発することが可能だという。
新バージョン9.1では、主要なクラウドストレージサービスとの連携や、IoTに欠かせないセンサーデータ等に対応するための機能拡張が実装されている。また、Hadoop環境上で並列分散処理を高速に実行する「Syncsort DMX-h」では、ビッグデータ処理エンジンとしてSpark実行に対応し、昨今のデータ活用に求められるビッグデータETL基盤としての機能を拡充している。
バージョン9.1の主な新機能は次のとおり。
■Syncsort DMExpress
・クラウドストレージサービス連携:AWSのクラウドストレージサービスであるAmazon S3、およびGoogle Cloud PlatformのクラウドストレージサービスであるGoogle Cloud Storageへの入出力が可能になった。
・最大レコード長を拡張:従来の64KBから16MBに拡張し、IoTに欠かせないセンサーデータ等、より長いレコードへの対応が可能になった。
・データファネル機能:Oracle Database等の主要なデータベースのデータ移行を行う際に必要な複数の処理定義を、DTL(テキストベースのコマンド言語)形式で自動生成する機能を追加。これにより、データベースからの一括アンロード処理の開発工数を大幅に削減することが可能。この機能は、2017年5月にサポートプログラムが終了するCA Fast Unload for Distributed Databases(FUO)の代替手法として、開発コスト低減を図る上でも有効な手法。
・DTLインポート機能:DTL定義をGUIの開発インターフェイスにインポートし、編集できる機能を追加。
■Syncsort DMX-h
・Spark実行:ビッグデータ処理エンジンとして従来のMapReduceに加え、Sparkが選択できるようになり、データ量や処理特性に応じたETL基盤の構築が可能になった。
・インテリジェント実行の強化:インテリジェント実行は、DMExpressのジョブフローを自動的にMapReduceまたはSpark処理に分解して実行することにより、MapReduceやSparkの特性を意識せずに開発を行える機能。従来は、「集計」「結合」タスクのみが対象だったが、新バージョンよりすべての処理に対応。