データ活用のよくある問題
――データ活用の一般的な問題と具体例はどのようなものでしょうか?
河野氏 最近は、企業内に似たようなデータが大量にあって、どのデータが正しいのか、どのデータを使うべきなのかが分かりにくくなっています。最近のシステム導入の流れとしては、パッケージ製品や既存のサービスを活用することで導入コストを抑えようとする動きが多いと思います。これは初期コストの面では非常に効果があるのですが、社内に非常に多くのデータが散在することになり、システム毎に同じような情報が作られ、最新情報はどこにあるのかがわからない。このような話は非常によく聞きます。
高橋氏 このようなデータを有効活用しようとすると、大きなデータウェアハウスを作って、それを利用していきましょう、という流れが一般的ですが、これは導入にすごく時間やコストがかかります。
諸橋氏 データウェアハウスはデータ構造の定義が重要です。これが決まらないと各システムからのデータの抽出やデータウェアハウスへのデータの登録処理が作成できません。また、データ量の予測が想定と異なると、すぐにハードウェアの交換が必要になり更に費用が発生します。データ構造が厳密であるということから、抽出対象のシステムの変更時の影響も大きいという特性もあります。
データ仮想化のアプローチ
――ではこのようなデータウェアハウスの課題はどのように解決できるのでしょうか?
諸橋氏 解決方法はいろいろありますが、仮想的なデータ統合の仕組みはその中でも有力な方法だと考えています。
――仮想的なデータ統合とはどういうことでしょうか?
河野氏 ファイルや、Webサービス、最近ではビッグデータ、KVS、NoSQLなど、様々な場所、形態にあるデータを、物理的にデータをコピーして保持するのではなく、仮想的に統合し、あたかも一つのデータベースのように見ることができ、かつリアルタイムの情報を利用できるというものがデータ仮想化の考え方です。データを保持しないのでデータ構造を柔軟に定義、変更できるため、様々なデータを非常に簡単に、早く活用できるようになります。
――データベース技術者から見ると、ビューみたいなものでしょうか。
河野氏 そうです、正にデータベースに依存しないビューですね。データベースの種類もバージョンも問いません。さらに、いわゆる他のシステムの特殊なAPIを使っているというようなものも、同じように統合してSQLで操作できるようになります。
――なるほど、仮想的なデータ統合だと解決できる問題が多そうですね。
諸橋氏 仮想的なデータ統合であれば、場所をとられず、小さい単位から導入しやすくて、比較的少ない予算でパッと入れられるところに適合していくテクノロジーだと思います。実現手段は色々ありますが、「やりにくかったものがやりやすくなる」というのが仮想的なデータ統合のポイントであり、「だったら、それはちょっといいかも」とお客様に思ってもらえるところだと思います。また、仮想的なデータ統合が、課題を解決する手段として受け入れやすいため、昔よりも候補にされやすくなってはいると実感しています。
データ統合の各種技術とデータ仮想化を実現するRed Hat JBoss Data Virtualizationとは?
インメモリデータベースや列指向データベース。また、HadoopやNoSQL製品等の登場で大量のデータが蓄積されるようになりました。このようにさまざまなデータを活用する必要がある中で、データ統合の手法として近年特に注目されているのが「データ仮想化」です。
本テクニカルペーパーではデータ統合の各種技術とそれらが解決する課題領域を解説し、「データ仮想化」を実現する製品である「Red Hat JBoss Data Virtualization」を紹介します。本資料はデータ統合の課題を解決したい方に向けた資料です。
実際にデータ統合の際にどこから手をつければよいかわかり、またデータ統合のポイントも知ることができます。