発表された「Big Data Management」は、多くのビッグデータプロジェクトの失敗の原因であるデータ管理の課題を効果的に克服できるという。また、高コストで技術者の確保が難しいコーディングやビッグデータスキルセットの必要性を大幅に削減するとしている。
「Big Data Management」の3つの統合コンポーネントの概要は次のとおり。
1. 動的な大規模ビッグデータ統合:Big Data Integration
・ユニバーサルな接続性: 200以上のプリビルドされたハイパフォーマンスなInformatica Connectorを使用して、あらゆるタイプのデータをHadoop、NoSQL、MPPアプライアンスなどのビッグデータプラットフォームに迅速に取り込むことができる。
・高スループット、低レイテンシのデータ統合:一括統合とリアルタイムストリーミングにより、最高のスループットと低レイテンシのデータ統合を実現。
・設定なしで利用できるスケーラブルな処理:100以上のプリビルドされたデータ統合やデータ品質のための変換およびパーサーが、Hadoop上でネイティブ実行され、大規模データセットをスケーラブルに処理。
・自動化されたデータ統合プロセス:動的なマッピングとパラメータ化により、データ統合プロセスを計画的に自動化。
・視覚的なグラフィカル開発環境:視覚的な開発環境では、手作業によるコーディングと比較して5倍の速さでデータ統合処理を開発可能。
・容易なプロビジョニング:ウィザードとマッピングテンプレートの使用により、何千ものソースからのデータをデータレイクまたは稼働中のデータストアに簡単にプロビジョニング可能。少数のテンプレートで、あらゆるクラスのデータフローが設計パターンに基づいて実行時に自動生成されるため、生産性と運用効率が大幅に向上。
・変化する環境への適合性:動的スキーマのサポートにより、柔軟なデータ形式への接続性が実現。
・最適化されたエンジン:大規模データ統合のパフォーマンスとリソース使用率を最大化。MapReduceと、YARNを使用したインフォマティカの新しいBlazeエンジンが、ビッグデータワークロードを最適化。
2. ビッグデータの包括的な品質管理とガバナンス:Big Data Quality and Governance
・IT部門とビジネス部門のコラボレーション:分かりやすく直感的な操作性により、アナリストやデータ管理者は包括的なデータ管理プロセスに効率的に参加でき、総合ビジネスプロセス管理機能によってビジネス部門とIT部門の関係者同士のコラボレーションを促進。
・ビッグデータのプロファイリング、検出、警告:ビジネスルールプロファイリングなどのデータプロファイリングと検出によってデータ品質の問題と異常を特定し、簡単に作成できる監視ルールやアラートによって品質の問題を追跡・警告できる。
・360°の関係性検出:ビッグデータ環境全体を対象とした、高パフォーマンスで柔軟な全体論的関係検出(関係者、世帯など)が可能。
・ライブデータマッピング:ユニバーサルメタデータカタログとエンタープライズデータを検索、検出、理解するためのナレッジグラフは、Sparkを使用して大規模なナレッジグラフを迅速に作成。
・拡張性に優れたデータ品質プロセス:データの検証、強化、重複排除をHadoopに導入。
・包括的な監査と分析:Hadoopを超えたデータ系列のエンドツーエンドの可視性により、コンプライアンスをサポートし、効果的なデータ品質課題の根本原因および影響分析を可能に。
3. リスクを明確に把握する:Big Data Security
・コンテキストによる機密データの検出:誰が機密データにアクセスできるか、誰が実際にアクセスしているか、機密データが保護されているか、どこに拡散しているかなど、追跡データフロー、系統、履歴などの情報を表示できる。
・可視化:可視化とレポートは、地理的条件、機能、ランキング属性に基づいて機密データを特定できる。
・リスクスコア:場所、拡散、コスト、保護ステータス、使用状況を分析して機密データのリスクを特定し、対応が必要な脆弱性を明確化。
・機密データの検出:機密データのプロファイリング、検出、分析により、ビッグデータのセキュリティリスクを明確に把握可能。
・アクティブなアラート生成:アラートは、高リスク状態を管理者とセキュリティ担当者に伝達。
・アプリケーション、テスト環境、レポート、アナリティクスの非特定化:一元的なポリシー管理によって機密データを保護しセキュリティを確保。動的なデータマスキングは、ユーザーのロールと権限に基づいて運用環境内の機密データを非特定化。持続的なデータマスキングにより、テスト、開発、トレーニングなどの非運用環境内のライブおよびアーカイブ機密データを保護。