IoEやクラウドの進展で注目を集めるデータ仮想化
仮想化といえば、サーバー仮想化にはじまり、近年ではネットワーク仮想化、ストレージ仮想化などITのインフラのレイヤーで様々に浸透している。そうした中で、シスコシステムズが提唱しているのは「データ仮想化」である。 シスコシステムズは昨年、データ仮想化テクノロジーを提供していたComposite Softwareを買収した。シスコはInternet of Everything(IoE)というコンセプトで人、モノ、プロセスを有機的に結び付け、インターネットの新しい時代を提起している。こうした中でシスコでは、データ仮想化をIoEに対する有効な手段の1つとして展開している。
データ仮想化へのニーズの高まりの背景には、データサイエンスやビッグデータといった今日のトレンドがあるのはいうまでもない。日本でも同じだが、米国でもこうしたトレンドが浮上してきたのは、「データソースのサイロ化」という事情である。Breissinger氏はそのあたりの状況を次のように説明する。
「企業は、RDBMSなどのトラディショナルなデータソースにくわえ、HadoopやNoSQLからのデータソース、AWSやSalesforce.comといったクラウドサービスからのデータソース、マシン生成のデータソースなどを効率的に扱う必要が生じてきた。増大するデータをうまく活用すれば、企業やビジネスリーダーは優れた結果を出し、競争優位性を確保できる。しかし、今日では、データソースがバラバラの状態で管理されており、活用までのコストや手間がかかっているのが実情。データ仮想化はこうしたビジネスのニーズに対応するために生まれた」
では、従来から行われてきたデータ統合やDWHとは何が異なるのか?運用されるRDBMSのデータはETLによってDWHなどに展開されBIツールなどを使って経営分析などに利用されてきたが、こうしたアプローチでは、最近のHadoopが扱う大量データやクラウドサービスで提供されるSalesforceなどのデータを扱うことは難しい。様々なデータソースにアクセスできるBIツールなども登場しているが、追加のコストや手間がかかる。ビッグデータを活用するためにデータを蓄積し、分析のための体制を整え、ツールの使い方や統計やデータサイエンスのスキル、ノウハウを習得している間に、ビジネス動向が変わってしまうこともある。
「データソースが増えるたびに、データをあらためて収集し、加工し、分析するといったことに取り組むのは効率的ではないし、ROIも悪い。結果的に、ビッグデータ向け分析基盤が“新たなサイロ”になってしまう場合もある。我々の提案は、これまでのようにデータをコピーしたり、どこかにレプリカを作ったりするのではなく、データに対して直接アクセスし、それをシングルデータ・ソースのように1つのビューで見せることで、データをオンデマンドで活用できるようにしようというものだ」
具体的には、さまざまなデータソースのうえにデータ仮想化レイヤーという抽象化レイヤを設け、異種データを論理的に1つのデータソースとして扱えるようにするというシンプルなソリューションになる。既存のDWHのスキーマを変更したり、アプリケーション改修したりといった手間やコストも不要で、導入初期から成果がでやすいのが特徴だという。
データ仮想化は実際にどんなシーンで用いられ、どんな成果を上げているのか。Breissinger氏は、リスク分析に適用して収益を改善させた英バークレイズ銀行(Barclays)、顧客1人あたりの収益向上につなげている米ケーブル最大手のコムキャスト(Comcast)、石油採掘と精製にかかわる機器のサプライチェーン最適化に活用しているある石油会社の事例を紹介した。