この製品によりデータエンジニアは、オンデマンドのクラウドインフラストラクチャーを使用して、データパイプラインを迅速に構築・運用することができ、データドリブンの高度なアプリケーションに対応することが可能になる。今回、「Altus」がAzure環境に対応することで、使い勝手に優れ、統一感のある、エンタープライズ対応のデータエンジニアリング体験が実現し、エンドユーザーにとっては、クラウドインフラストラクチャーのプロバイダーの選択肢が広がる。
Clouderaとマイクロソフトはこれまでも提携を重ねてきたが、今回の提携拡大により、「Altus」に加えて、ビジネスアナリストはIoT Hubを通じてセンサーデータを取得、Polybaseを通じてClouderaで処理したデータをMicrosoft SQL Serverに入れたり、Microsoft Power BI for Impalaを利用して洞察を可視化することができるという。
こうしたマイクロソフトとの連携を通して、Clouderaは大規模のデータ分析や予測分析をコスト効果の高い方法で支援できる、ビジネス向け機械学習ツールを提供していくとしている。
Azure環境の「Cloudera Altus Data Engineering」は、データパイプラインの開発・運用を簡素化することで、データエンジニアリングのワークロードにフォーカスしつつ、時間のかかる複雑なインフラストラクチャーの管理・運用を削減する。
顧客は、データ分析向けのハイパースケール・クラウド・ストレージシステムである Azure Data Lake Store(ADLS)上でデータレイクをホストし、Azureのインフラストラクチャー容量をオンデマンドで利用することで、エンドユーザーのセルフサービス機能に対応できる。
計算リソースとストレージの分離により、ADLSはリソースのスケーリングを独立して行うことができ、要求の厳しい顧客の利用に対応できる。「Altus」は、エンタープライズグレードのClouderaディストリビューションによって構成されており、クラウドプロバイダー間のクラウドやワークロードの移行に伴うリスクを軽減するという。「Altus」はユーザーに使い慣れたツールを提供し、データパイプラインを通じてデータストレージとメタデータの管理を共有化するとしている。
Azure向け「Altus Data Engineering」の主な特徴
・ワークロード指向(オリエンテッド):Altusにより、ユーザーは、クラスタやインフラストラクチャー管理を気にすることなく、パイプラインのサブミット、クローン、トラブルシューティングを容易に行うことができる。
・データのサイロ化を排除:データエンジニアはAltusを使用することで、ADLSに直接読み書きする形で、データ処理のジョブを実行できる。データの複製やETL、ファイル形式の変更をすることなく、これらのデータをほかのClouderaワークロードでただちに使用することが可能になり、同一のデータを何度も保存する際の間接費が発生しない。これによりユーザーは、データサイエンスやBI、リアルタイムDBアプリケーションに対し、データエンジニアリングをより効率的に導入することできる。
・ツールとの連携:広く採用されているサードパーティツールとの連携により、非互換性のリスクを抑えつつ各種機能を強化できる。
・組み込みのワークロード分析機能:Altusは、ワークロード分析機能によってデータパイプライン向けに、モニタリング機能とトラブルシューティング機能を提供。ワークロード分析機能により、ユーザーは問題のあるジョブのトラブルシューティングを簡単に行える。さらに、Altusのワークロード分析機能により、ワークロードパフォーマンスの異常状態を検知し、根本原因の分析結果を提供する。その結果、顧客はより高い信頼性と、低コストでデータパイプラインを実行できる。