データ仮想化を実現するデータ分析基盤「SQL Server Big Data Cluster」
「SQL Server 2019はデータを最大限活用するためのデータ分析基盤を提供します」
講演冒頭、日本マイクロソフト株式会社 サービス事業本部 シニア プレミア フィールドエンジニア 平山理氏はこのように宣言した。目玉となるのはデータ分析基盤のための機能拡張がある。ほかにも多様なプラットフォームへの対応、運用管理機能やセキュリティの強化も見られる。
キーワードとなるのは「データ仮想化」。データ分析しようとすると、データをほうぼうから収集する必要がある。1ヶ所のデータソースだけでは情報が足りないからだ。複数の業務システムやデータベースからデータを集めるとなると、データの移動や変換の必要性に直面する。収集や変換の負荷が処理のコストを高め、データの新鮮味を下げてしまうこともある。
データがあたかもSQL Server内にあるかのように、透過的に扱えると理想的だ。それを表す概念が「データ仮想化」。実際には外部データソースにアクセスするためのコネクターで実現する。SQL Server 2016以降にはPolyBaseという機能があり、SQL ServerインスタンスからHadoop(HDFS)やAzure BLOB Storageにアクセスできていた。イメージとしてはSQL Serverから外部データソースに伸びる「手」だ。
SQL Server 2019ではPolyBaseの「手」が増える。これまでのHadoopとAzure BLOB Storageに加えて、Oracle DatabaseやTaradataのRDBMS、MongoDBやCosmosDBのNoSQL、そしてIBM Db2やSAP HANA(ODBC)もPolyBaseを用いて接続できるようになる。
またデータ分析基盤の象徴となるのが「SQL Server Big Data Cluster」だ。これは単体の機能ではなく、SQL Server 2019で実現するデータ分析基盤の全体像ととらえていいだろう。