データ仮想化と、ETLを利用した従来のデータ統合の“いいとこ取り” 「次世代データ統合」とは
仮想データベースのソリューションは、ここ最近登場した新しいものではない。たとえば、BI(Business Intelligence)ツールにコネクタがあり、仮想のテーブルが定義されていて、裏でSaaSにデータを取りにいくような構成もデータ仮想化の一種だ。また、多くのリレーショナルデータベースの製品にもデータリンク機能があり、空のテーブルを定義しておくことで、アクセスがあった際にデータを取得するものも存在する。
もちろん、一部の小規模データの取得だけを仮想データベースで行うならば、特に問題は発生しないだろう。また、データの取得頻度がそれほど多くない場合も問題は生じないかもしれない。しかし、大規模なデータを仮想データベースで取得するような構成では、パフォーマンスに問題が生じてしまう。データソースが多様な場合には、BIツールなどにコネクタが用意されていないこともあり、別途それを用意する手間が必要なケースも考えられる。多くのデータソースがあればあるほど、コネクタを構築することは大変で、アクセス制御なども複雑化しかねないのが現状だ。
こうした課題を解決する新たなデータ仮想化として登場したのが、疋田氏の所属するCData Software Japan(CData)の新製品「CData Virtuality」だ。「CData Virtualityが従来のデータ仮想化と最も異なる点は、“バイモーダル”なことです。ETLを利用した従来のデータ統合、データ仮想化の両方に対応できます」と疋田氏。ETL/バッチ処理によるデータの取得、データ仮想化のリアルタイム性といった双方のメリットを享受できるという。たとえば、必要なデータだけを物理的に移動させることで、データベースサーバーやストレージのコストも最適化できる。
「容量の大きなデータを分析したいとき、データ仮想化を使うことは必ずしも最適な選択肢ではありません。手元にデータリポジトリを用意し、データの加工などはバッチ処理で行うほうが効率的です」と疋田氏は語る。仮想データベースでは、複数ソースにまたがるデータをJOINして分析するなど、工程が多くなるほどレスポンスが悪くなるだろう。一方で、セキュリティやアクセスコントロールなどは「作り込み方次第では実現可能な場合もあり、物理と仮想のどちらが有利かといったことは一概に言えません」と指摘する。
ETLを利用した従来のデータ統合、データ仮想化両方のメリットを兼ね備えたCData Virtualityは、SQLでアクセス可能な仮想テーブルで構築されている。これを使えば、データウェアハウスのようなデータ統合基盤を構築できるだけでなく、分析用途に合わせたデータマートも簡単に実現できる。
また、データの同期に関してはオプションが用意されており、ETLパイプライン経由でデータを取得して手元に保持するのか選択可能だ。「APIの制限などで1度にすべてのデータを取得できない場合でも、分割処理によって問題なく取得できます」と疋田氏。ETLオプションで取得したデータは、様々なデータリポジトリに格納でき、それらをCData Virtuality経由で活用していく。
これまでのようにデータウェアハウスやデータレイクから複製したデータを保管するためのストレージが不要になるだけでなく、データパイプライン構築にあたっていたエンジニアの工数削減にもつながるため、データ活用における費用対効果を高められる。生成AIなどを背景に需要が急速に高まる中では、データの収集から管理までのコストを容易に削減できるメリットは大きい。
なお、仮想データベースのデータ構造となるメタデータは、外部のメタデータツールやデータガバナンスツールなどとも連携できるようになっている。そのため、CData Virtualityを用いることで、メタデータを集中管理することも可能だ。こうした機能があることで、「ハイエンドのデータ活用基盤においてコスト面も運用管理の工数も大きく効率化できます」と疋田氏は自信を見せる。