DB Press（AD）

特別鼎談「データ仮想化の大いなる可能性を探る！」（前編）

2017/02/10 06:00

通知

　ビッグデータがバズワードから現実的なビジネス課題へとシフトし、その先のIoTやオープンデータ活用といった次なるデータ活用のテーマが見えてきている。このデータ活用の鍵となるテクノロジーのひとつが「データ仮想化」だ。これは一体どのような技術で、企業に何をもたらしてくれるものなのか？　世界中で広く使われているデータ仮想化製品「Red Hat JBoss Data Virtualization(JDV)」を提供するレッドハットの河野恭之氏、そして同製品を使ったソリューションを国内で広く展開している日本ヒューレット・パッカード（HPE）データベースのスペシャリストの諸橋渉氏と高橋智雄氏に聞いた。

通知

「とりあえず溜めておく」から「どうやって活用するか？」へ

――まずは昨今のデータベースの動向やユーザー企業が抱えている課題から、お話をお伺いできればと思います。

レッドハット
テクニカルセールス本部
パートナーソリューションアーキテクト部
部長河野恭之氏

河野氏　最近は特にオープンソースのデータベースを利用しているお客様の話をよく聞きます。新規に入れるデータベースだけではなく、商用データベースから移行している事例も非常によく聞きます。また、大量データを意識されているお客様はHadoopやNoSQLデータベースを使われるお客様も多いと感じています。

――大量データを扱いたい、ビッグデータを分析に利用したい、などユーザー企業のなかで実際にかなり立ち上がりつつあるということですね。このあたり、HPEではどう見られていますか。

高橋氏　ちょっと前までは、「とにかく溜めていこう！」みたいな感じだったと思いますが、今はもう「溜まったデータをどうやって活用していくか？」というところに、主眼が移ってきている感じがしています。溜めていくだけであればHadoopなどが主体だったのですが、溜められたデータをどうやって実用化していくか、というところでHadoopだけではなく、それをさばけるようなデータベースが強く求められています。

――溜めておくだけではなくて、効率的にさばけるようなデータベースとは、具体的にどんなものでしょうか？

日本ヒューレット・パッカード　
テクノロジーコンサルティング事業統括
テクノロジーアーキテクト部
シニアスペシャリスト高橋智雄氏

高橋氏　NoSQLのような、クラウドサービスで多いデータベースで、普通のRDBMSだとちょっとさばけないようなものをスケールアウトでさばいているもの。あとは、RDBMSに関してもやはり高速化がすごく求められていますので、そこはどちらかというとハードウェアの方で、不揮発性メモリですとか、SSDとかフラッシュを使って高速化させていこうみたいなものがメインストリームになってきています。

諸橋氏　数年前はデータといっても、10テラバイトもうちの会社にはない、というのが当たり前でした。今は「10テラバイトはある」が前提になっていて、それが処理できるソフトウェアとハードウェアが、実用的になってきているのではないかと思います。処理しきれないような組み合わせというのはもはや前提にならず、ちゃんと処理できるものへのニーズが確実に増えてきていると思います。メモリも搭載量が多くなり、ハードウェアの価格は下がってきているので、ソフトウェアのみではなくハードウェアと両方の面で進化していると思いますね。

　少し前だと実験段階とか、まだまだ試使用のイメージが強かったものも、今はもうお客様があらかじめ使っています。それをもうちょっと有効活用したい、という風に話が変わってきているかなと感じています。RDBMS以外のものが段々当たり前になってきている、というのもあります。そのため、それに合わせたソフトウェアを使っていくことが重要になります。また、すでにかなりのデータが企業のなかにあるという感じですね。

　データ統合の各種技術とデータ仮想化を実現するRed Hat JBoss Data Virtualizationとは？

　インメモリデータベースや列指向データベース。また、HadoopやNoSQL製品等の登場で大量のデータが蓄積されるようになりました。このようにさまざまなデータを活用する必要がある中で、データ統合の手法として近年特に注目されているのが「データ仮想化」です。

　本テクニカルペーパーではデータ統合の各種技術とそれらが解決する課題領域を解説し、「データ仮想化」を実現する製品である「Red Hat JBoss Data Virtualization」を紹介します。本資料はデータ統合の課題を解決したい方に向けた資料です。

　実際にデータ統合の際にどこから手をつければよいかわかり、またデータ統合のポイントも知ることができます。

詳細＆資料ダウンロードはこちら！

データ活用のよくある問題

――データ活用の一般的な問題と具体例はどのようなものでしょうか？

河野氏　最近は、企業内に似たようなデータが大量にあって、どのデータが正しいのか、どのデータを使うべきなのかが分かりにくくなっています。最近のシステム導入の流れとしては、パッケージ製品や既存のサービスを活用することで導入コストを抑えようとする動きが多いと思います。これは初期コストの面では非常に効果があるのですが、社内に非常に多くのデータが散在することになり、システム毎に同じような情報が作られ、最新情報はどこにあるのかがわからない。このような話は非常によく聞きます。

高橋氏　このようなデータを有効活用しようとすると、大きなデータウェアハウスを作って、それを利用していきましょう、という流れが一般的ですが、これは導入にすごく時間やコストがかかります。

日本ヒューレット・パッカード　
テクノロジーコンサルティング事業統括
ストレージ・ビッグデータソリューション部
コンサルタント諸橋渉氏

諸橋氏　データウェアハウスはデータ構造の定義が重要です。これが決まらないと各システムからのデータの抽出やデータウェアハウスへのデータの登録処理が作成できません。また、データ量の予測が想定と異なると、すぐにハードウェアの交換が必要になり更に費用が発生します。データ構造が厳密であるということから、抽出対象のシステムの変更時の影響も大きいという特性もあります。

データ仮想化のアプローチ

――ではこのようなデータウェアハウスの課題はどのように解決できるのでしょうか？

諸橋氏　解決方法はいろいろありますが、仮想的なデータ統合の仕組みはその中でも有力な方法だと考えています。

――仮想的なデータ統合とはどういうことでしょうか？

河野氏　ファイルや、Webサービス、最近ではビッグデータ、KVS、NoSQLなど、様々な場所、形態にあるデータを、物理的にデータをコピーして保持するのではなく、仮想的に統合し、あたかも一つのデータベースのように見ることができ、かつリアルタイムの情報を利用できるというものがデータ仮想化の考え方です。データを保持しないのでデータ構造を柔軟に定義、変更できるため、様々なデータを非常に簡単に、早く活用できるようになります。

――データベース技術者から見ると、ビューみたいなものでしょうか。

河野氏　そうです、正にデータベースに依存しないビューですね。データベースの種類もバージョンも問いません。さらに、いわゆる他のシステムの特殊なAPIを使っているというようなものも、同じように統合してSQLで操作できるようになります。

――なるほど、仮想的なデータ統合だと解決できる問題が多そうですね。

諸橋氏　仮想的なデータ統合であれば、場所をとられず、小さい単位から導入しやすくて、比較的少ない予算でパッと入れられるところに適合していくテクノロジーだと思います。実現手段は色々ありますが、「やりにくかったものがやりやすくなる」というのが仮想的なデータ統合のポイントであり、「だったら、それはちょっといいかも」とお客様に思ってもらえるところだと思います。また、仮想的なデータ統合が、課題を解決する手段として受け入れやすいため、昔よりも候補にされやすくなってはいると実感しています。

　データ統合の各種技術とデータ仮想化を実現するRed Hat JBoss Data Virtualizationとは？

　実際にデータ統合の際にどこから手をつければよいかわかり、またデータ統合のポイントも知ることができます。

詳細＆資料ダウンロードはこちら！

データ仮想化の価値

――仮想的なデータ統合の具体的な事例やユースケースを教えていただけますか。

河野氏　例えば金融業の例だと、多数のシステムにまたがったお客様情報を仮想的にまとめ、案件情報と仮想的に統合してBIツールを利用して参照する利用例があります。今までは利用者が独自にデータを取得していたのですが、人により取得するデータが異なっていました。データ項目が大量であるので、利用目的に合わせた正しいデータとの考え方は無く人依存のレポートになっていたのです。これが仮想的なデータ統合により正しいデータを皆が共通に簡単に扱えるようになりました。他には、製造業の事例で、拠点のデータ統合処理を仮想化で実現した事例があります。今までは大量のデータベースバッチ処理をスケジューラで実行していたのですが、中間テーブルが大量にできて管理が難しく、最終的に利用するテーブルの構造や、取り込むデータのシステムが変更になった際に、処理の見直しから始めて非常に時間がかかっていたと言います。これが、仮想的なデータ統合になれば中間テーブルが不要になるため、どのデータをどこから取ってきているのかが一目瞭然となり、修正の工数が大幅に減りました。

――なるほど、ではデータ仮想化の価値はどのようなものがあるのでしょうか？

河野氏　まずはデータ活用までのスピード向上が挙げられます。今までのデータウェアハウスは、導入設計段階でデータモデルの正規化を行わなければなりません。当然ながらシステム構成もはじめから決めなくてはいけません。そこで膨大なお金と時間がかかります。データを統合するために各部署との調整も労力がかかります。それが仮想であれば、「必要なデータモデル」をまずは定義し、それに必要なデータ統合処理を作成すればすぐに利用が可能となります。今までのようにハードウェアを準備するために時間をかけてサイジングをする必要もありません。

諸橋氏　物理的なデータ統合をやろうとしたら、ETLのツールが新しいシステムに対応できなくて困るとか、昔のソフトウェアをそのまま使わなくてはいけないとかいった制約があったりします。このように、お客様が抱える課題や制約が色々とあるなかで、最終的にデータ仮想化を入れてみようとされるケースはあります。

――データが見える化できると、ビジネスのアジリティが上がるという言い方がありますよね。これは具体的に言うとどういったことなのでしょうか。

河野氏　「そのデータって、本当に正しかったの？」となった時に、データウェアハウスやETLの場合だと、そのデータを作る仕組みを全部見直さないといけないですね。このデータはどこから取ってきたのか、どういう取り方をしたのか、そこで、一つの項目を変えたくても、そのために一、二ヶ月かってしまう。それが、仮想化であれば依存関係が図式化されるので、どこからどう取ってきたかをすぐに判断ができるようになります。

諸橋氏　データの見える化だけではなく、データのフローが見える化できるようになります。ビューの定義はSQL文です。どこのデータソースの何を持ってきているのか、データ仮想化製品の管理者は分かるわけです。

――たとえば、今までまったく取り組んでこなかったデータ項目を追加するというのは、具体的にどのくらいかかるものなのでしょうか。

河野氏　どこから取るかにもよりますが、データベース、ファイル、Webサービス等であれば、SQLのビューという形で項目を追加できますので、通常は一日あれば利用できるようになります。

――確かにビジネスのアジリティは劇的に変化しそうですね。

河野氏　データ仮想化によって、元のデータソースは利用者から隠蔽されます。データソースが何であってもかまいません。そのため、たとえば今はAというデータベースを使っているけど、費用面や性能面でBというデータベースに置き換えたいといった場合でも、利用者は意識せずに変更することが可能になります。

――データ仮想化のような仕組みがない場合は、データベースを入れ換えると、アプリケーションも全部手が入るので、大事になってしまう。データ仮想化によって、統廃合するDBの移行などに適切に判断できる時間が増えるたりするのも大きなメリットですね。

河野氏　そうですね。他のシステムに影響を与えることなく変更が検討できるようになるので、その分、リスクを抑えて低コストの統廃合ができるのではないかと思います。統廃合といえば、メインフレームでもそうですが、「全部まとめて一括で移行」なんていうのは決してできなくて、やはりシステム毎に個別の移行になります。通常、システムは新旧共存することになります。システムの移行は、個別でアプリケーションを変えるのでいいのですが、「新旧のデータを一緒に活用したい」と考えた時、かなり大変なことになります。その場合、仮想レイヤーを設けることによって、あるタイミングでは昔のデータを見ていて、あるタイミングでは新しいデータを見にいきます、ということをすると、実は全く意識することなく今まで通りデータを使える、ということが可能になります。

諸橋氏　たとえば「表がそこにある」と捉えていると、ときに必要もないのに全件取得してしまって、それだけでシステムに負荷を与えることにつながったりします。「こっちは移行でピリピリしているのに！」みたいな話になりがちなのです。「そういったことを考えなくてもいいように、こういうツールを入れますよ」とか「この役割を責任持ってやりますから、もう平行して進めちゃってください」と言いやすくなると思います。

　そういうことが会社の中で、システムとして次々に持ち上がるわけですね。そのたびにツールを変えたり役割を変えたりするぐらいだったら、全社のデータを管理する専任者が行ったり、データ仮想化製品のような専用のソフトウェアを使って行う方が、標準化やモデリングみたいなことも含めて有用だと思います。

高橋氏　ITRの調査データによると、IT予算があまり伸びていない状況のようです。特に新規の投資比率というのが、IT予算の中で、どちらかというと低下しているという評価があります。つまり、新しいことにかけられるお金はそんなに増えていない。このような状況のなかで、データも多様化し、ITでやりたいことは増えてきています。それなのに予算が増えていないので、どうしても昔より効率の良いITの導入ということが求められている。色々な部門で差があると思いますが、根本にはそういう状況だと思います。

河野氏　その他の価値としては情報セキュリティの強化もあります。たとえば個々のデータベースは当然セキュリティ設定がされていますが、複数のデータベースを扱う場合や、ファイルやWebサービスは、システムのセキュリティがそれぞれ別々なので、データを取ろうとするとユーザーIDやパスワードを使い回すことがよくあります。これを仮想的なデータ統合でセキュリティを統合的に扱い、監査証跡を設けることで強化することが可能になります。

　データ統合の各種技術とデータ仮想化を実現するRed Hat JBoss Data Virtualizationとは？

　実際にデータ統合の際にどこから手をつければよいかわかり、またデータ統合のポイントも知ることができます。

詳細＆資料ダウンロードはこちら！

データ管理の重要性

――企業の中にバラバラに存在している色々なデータソースを、あたかも一つのデータベースのように見せたい、一つのデータベースのように扱いたいというのがデータ仮想化ですね。

諸橋氏　はい。あらかじめデータ仮想化製品に設定することによって、どこにどうログインするかということをその管理者が決めてしまえば、データを使う人たちは、どこにあるのか意識しなくていいです。

河野氏　データを有効活用する前に、どのシステムにどういうデータがあるのかということを、システムを横断して把握している人は、まだいない状態だと思います。したがって、データベースを管理するという考え方から、データ自体を管理していく、そういう役割を持つ人を置いて運用していくことが今後重要になってくると思います。

諸橋氏　まずはデータのありかとそれがどんなデータなのかをしっかり把握する活動をされている方が多いと思います。抽象度を上げて、「どこにあるのです」、「こうやって管理しているのです」ということを定義して情報としてきちんと持っているデータ仮想化製品ではビューをER図で見ることができます。ドキュメントとして残そうと思っているものが常に利用するデータベースの中にあるような形になります。

高橋氏　その点はデータ仮想化製品の強みだと思います。データの利用を促進するためには、データモデルの管理を容易にできるということは重要だと思います。また、実際にデータを利用する際には、データモデルが階層的になることが多いのですが、そのような階層的なモデルの管理もGUIで行うことができます。

河野氏　同じお客様情報でも利用するシステムによって必要な情報は異なりますが、あるシステムは単純に名前と住所だけでいい。あるところは名前と、やはり属性情報が欲しい。そういった要望にも「利用モデル」を変えるだけで対応できます。データの標準構造であるデータモデルと利用者に合わせたデータモデルを階層的に定義できるのです。

諸橋氏　データソースのシステムから、ビューを分離できるという言い方もできると思います。ビューをデータソースに持ってしまうと、構造が複雑になります。ビューがデータモデルとしてデータ仮想化製品側にあると、階層的になる部分はデータ仮想化製品内で処理させるという感覚で分離ができます。そして、分離することによって、データソースのシステムに負荷をかけづらい形にもできます。

　もちろん、誰かがそのデータモデルを考えなければいけません。それぞれが分離することによって、各システムに求められる要件が整理でき、データソースの管理者はデータベース管理システムの管理に、データ仮想化製品の管理者はデータモデルの管理に、専念できます。その結果として、データの利用者は、よりそこにあるデータを扱うことに専念できるようになります。

――データ管理が、よりデータ自体を管理していくことになるのですね。後編では、データ仮想化の代表的な製品である「Red Hat JBoss Data Virtualization（JDV）」の強みや用途、企業の事例や導入のポイントなどについて迫っていきます。（後編に続く）

　データ統合の各種技術とデータ仮想化を実現するRed Hat JBoss Data Virtualizationとは？

　実際にデータ統合の際にどこから手をつければよいかわかり、またデータ統合のポイントも知ることができます。