新たなビッグデータ向けプラットフォーム「Azure Synapse Analytics」
もう1つのData Platformはビッグデータ向けのデータベースだ。ところで従来、Data Lakeを構築するようなビッグデータ向けのデータベースは、大量データを高速に処理できる反面、セキュリティやプライバシーの確保などの面は必ずしも充実していなかった。
一方リレーショナル・データベースで実現するデータウェアハウスは、大規模な拡張性はないものの信頼性の高いパフォーマンスと実証済みのセキュリティ機能、鉄壁のプライバシーなどある。これら性質の異なる2つのデータベースのいいとこ取りをして、新たに1つにしたのが「Azure Synapse Analytics」だ。「これはビッグデータとデータウェアハウスをかけ算したものになります」と畠山氏。
Azure Synapse Analyticsには、2つのサービスがある。「Provisioned Data Warehouse」は既に一般提供を開始しており、もう1つの「On-demand Query as a Service」は現在プレビュー版で公開されている。Azure Synapse Analyticsでは、SQLエンジンの横にSparkのエンジンが搭載されており、ストレージにはAzure Data Lake Storageを利用する。そしてオーケストレート機能、ETL機能となるData Factoryも内蔵されている。
Azure Synapse Analyticsに蓄積されるデータは、Notebookを使いPythonなどのコードを書くことで多様な見方で可視化できる。また組み込み型のPower BIも用意されているので、使い慣れたツールでコードなどを書かずに柔軟な検索や可視化も可能だ。またSQLを用いて、Data Lakeの中のカラムストアにあるデータにアクセスすることもできる。
さらにCosmos DBを連携させることも可能で、Cosmos DBに蓄積しているデータもすぐに分析対象にできる。「これによりビッグデータを扱うためのストレージは、Data Lake Storage一択という形で構成できます」と畠山氏。
Cosmos DBも、今後はTransactional StorageとAnalytics Storageの2つを持つことになる。Sparkのエンジンでアクセスするのは後者で、Cosmos DBの中だけで2つの種類のデータを扱えることになる。その上で、Azure Synapse AnalyticsとCosmos DBを連携できると言うわけだ。Cosmos DBでは、作成時に複数のストレージタイプの利用を選択でき、またBlobストレージのデータをCosmos DBに連携させて取り込むことも可能となっている。