ビッグデータ時代における最大の課題は、世界中に点在するデータを効率的に収集し、分析可能な状態にするかだ。従来の抽出、変換、ロード、いわゆるETLプロセスでは、日々変化し、膨張するデータへの対応が難しくなっている。そこで注目されるのが、インターネット上のDBから、必要なデータを半自動的に収集し、統合可能にするシスコのデータ仮想化ソリューションだ。その仕組み、特長、今後の展開などについて担当者に話を伺った。
インターネット上のDBから必要なデータを自動的に抽出して統合

シスコサービス
ソリューション&ポートフォリオマネージメント
ソリューション エグゼクティブ 久松正和氏
2000 年には約2億個にすぎなかったインターネットに接続可能なモノが、現時点では100億個はあると見られている。今後、この勢いはさらに加速し、2020年には500億に達すると推定されている。
そこでシスコが提唱しているのが、インターネット上で人、プロセス、データ、モノをインテリジェントにつなぐInternet of Things(IoT)を拡張した、Internet of Everything(以下 IoE)という世界だ。シスコは、現状では99.4%が未接続という状況を変え、IoEを実現することがミッションだと考えている。
IoEの世界では、従来とは比較にならないほどの大量データが生み出され、その活用の可能性も無限に広がっていく。しかし、ソリューション エグゼクティブ久松正和氏は、既存のビッグデータ活用アプローチには、システム導入までの期間が長引くこと、データ更新の頻度が低く効率的でないこと、データ処理に伴うシステムの導入と運用コストが肥大化することなどの課題があると語る。ある目的のためにデータを貯めていたとしても、新たな種類のデータに対する必要性が生じた時、そのたびに新たにデータベースシステムを作り直していたのではコストがかかるし、目まぐるしく移り変わるビジネスのスピードに即応できない。
以上の課題を考えるとき、複数のデータソースにまたがるビッグデータを仮想的に一元化する、データ仮想化ソリューションが、一つの解決策だ。これはネットワーク上のデータベースを有機的に統合化するもので、2013年7月のComposite Software買収により、シスコのIoEソリューションの一環となった。

キーポイントは既存のDBやファイルのデータを、ネットワークを通じてあたかも一つの仮想的なDBの形で、上位のアプリケーションに見せることができるということだ。
データ仮想化では、既に蓄積されているデータの抽出、変換、改めてDBにロードするETLプロセスを省略することができる。オプションで提供されるデータソース アダプタにより、RDBMS、SOAPなどのWebサービス、XMLファイル、Excelスプレッドシート、LDAPディレクトリ、Hadoop/Hive/Impata、カスタムJavaアダプタ、各種ビジネスアプリケーション(SAP、Oracle EBS、SiebelのみならずSalesForce.comのようなクラウドサービス)、OLAPなどのデータを引き出すことが可能だ。
「社内のデータはXML、Excelなどファイルになっていることが多い。それを合わせて一つのテーブルとして見せるというのはなかなか無いと思います。お客様が作った特別なシステム相手でない限り、データ仮想化ソフトウェアを導入したその日から試すことができる形になっています」(久松正和氏)。
データ仮想化のシステムを構築するのは容易で、開発は、(1)利用可能なデータの準備、(2)隠れた関連性の発見、(3)個々のビューのモデル化、(4)ビューの検証のステップをたどるが、これらのステップは簡単な操作でおこなえる。従来アナリストが大半の時間リソースをさいていた、データの抽出と検証の工程もディスカバリ機能によって大幅に簡略化されることが特長である。
この記事は参考になりましたか?
- この記事の著者
-
EnterpriseZine編集部(エンタープライズジン ヘンシュウブ)
「EnterpriseZine」(エンタープライズジン)は、翔泳社が運営する企業のIT活用とビジネス成長を支援するITリーダー向け専門メディアです。データテクノロジー/情報セキュリティの最新動向を中心に、企業ITに関する多様な情報をお届けしています。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
この記事は参考になりましたか?
この記事をシェア