多種多様なデータを情報系データベースに一挙に集めたいというニーズ
恩田氏:私も、基幹系と情報系を一緒にするような提案をお客様にすることはないですね。ただ、データを活用したいというニーズは確実に高まっていて、いわゆる「データレイク」のようにいろんなシステムからデータを一箇所に集めたいという要望をお持ちのお客様はいます。また、何か問題が発生した際のデータのトレーサビリティを確保する目的で、データを同じ場所に集めておきたいというニーズも中にはあります。
永安氏:最近、いろんなところにあるデータを元の場所に置いたまま、“仮想的に”集めてくるというソリューションがはやってますよね。でも個々のデータベースでできることはそれぞれ違うので、「すべてを一律にSQLで集めてこられる」という謳い文句通りにうまくいくものなのかどうか、ちょっと微妙なのではないかと思っています。
谷川氏:Hadoopなどはその典型だといえそうですね。Hadoop上のデータを使うために、いったんリレーショナルデータベース上に転送する必要が出てきて、結局のところコストがかさんでしまうという話はよく聞きます。
永安氏:コストはかさむけれども、いったん“物理的に”どこか1つのデータベースに転送せざるを得ないケースはどうしても出てきますよね。けれどもその挙句、せっかく集めてもパフォーマンスが足りなくなって、結局はオンプレミスの高価なアプライアンスにデータを放り込むはめになってしまう!
ミック氏:ただ、いざとなればキャッシュを使うなどして無理やりパフォーマンスはひねり出せますから、考えるべきはむしろ機能的な要件の方ではないかと考えています。これから大事になってくるのは、ハイブリッドクラウドにおけるデータ連携のあり方ではないかという気がしています。いろんな業務システムがクラウドに移行する中、どうしても一部のレガシーシステムはオンプレミスに残さざるを得ません。そうしたシステムを今後より有効活用していくためには、データベースのデータをAPIやSQLのインタフェースを通じて外部から広く活用する仕組みが必要になってくるでしょう。
谷川氏:最近では、SNSのデータに代表されるような非構造化データも情報系データベースに取り込んで活用していこうという流れもありますが、このあたりのニーズは現場で実際に出てきていますか?
永安氏:ログをリレーショナルデータベースに集めたいというニーズは多いですね。ログデータは非構造化データといいつつ、実は比較的構造化しやすいので。
恩田氏:私が関わった案件でも、セキュリティ上の要件でログを保存したいというニーズがありましたが、データベースに入れるよりテキスト形式でとっておいた方が扱いやすい面もあるので、テキストデータとして管理していました。ログのような類のデータであれば、実はそういうやり方もあります。
IoTで露呈した「更新処理のスケーラビリティ」の問題
ミック氏:最近、IoT系のシステムにかかわる機会があるのですが、IoTシステムのデータベースではエッジデバイスから送られてくる膨大な量の更新リクエストをさばかなくてはいけません。これまでのデータベース技術はどちらかというと、「読み込み処理をいかにスケールさせるか?」に主眼を置いて発展してきましたが、ここに来て初めて「更新処理をいかにスケールさせるか?」という課題に直面しつつあるように感じます。
谷川氏:更新系は、どうしてもREDOの部分がボトルネックになってしまいますからね。アプリケーションの設計で逃げる手もありますが、そうなると今度はスケーラビリティが犠牲になってしまいます。
ミック氏:IoTの場合は、最終的にはフロントのエッジデバイスでデータをサンプリングして、データベース含むサーバサイドに渡すデータ量を調節するのが現実解になるかもしれませんが、まだ一般的なアーキテクチャのモデルが確立していない分野なので、今後しばらく試行錯誤がある気がします。
野間氏:ちなみにDb2のDBパーティショニング機能を使えば、シェアード・ナッシングで完全にログが分かれていますから、かなりの数の更新トランザクションもさばけるかもしれません。ただ、そのための構成を実際に組むとなると、コストは決して安くなさそうですね。
ミック氏:そうですね。シェアード・ナッシングでは、DBが保持するデータを局所化することになるので、業務要件の調整コストを考える必要があります。フロントでデータを間引く、キャッシュで受けてバックエンドは非同期更新、などの対策と合わせて、どうバランスを取ればいいのか今いろんな方々が考えているところなのだと思います。
永安氏:最近どうも、システムの費用対効果について昔ほど厳密に考えなくなってきている傾向にある気がしています。情報系データベースの製品も、慎重にプランニングすることなく導入して、使ってみたら「意外と高くつくぞ!」ということに初めて気付くようなケースが最近目に付きます。
谷川氏:Hadoopも一時期多くの企業が挙って導入しましたが、結局は多ノードで大規模に運用している企業はほんの一部に留まっているようですね。Hadoop自体は安くても、その基盤を構築・運用するためのコストがかなり掛かりますから。
永安氏:結局のところ、もともとのビジネスの規模が大きくないと十分な費用対効果が出ないという評価になってしまうんですよね。Hadoopがテレコムから入り始めたのもそういう背景があったからでしょうし、そういう規模感にフィットする企業が国内にどれだけあるかと考えると、なかなか厳しいと言わざるを得ませんね。
以上で見てきたように、座談会の前半では近年の情報系データベースを取り巻く状況やトレンド、それにまつわるDb2の話題などについて活発な意見交換が行われた。なお後半では、基幹系と情報系のトランザクションを統合する「HTAP」やクラウドデータベースなど、最新のデータベーステクノロジーについての話題で大いに盛り上がりを見せた。その模様は、あらためて後編でお届けする。
――後編に続く
【関連記事】
・本音で話そう、Db2の好きなところ、イマイチなところ
・IBM Db2を選んでみたらこうなった
・そろそろ、HTAPの話をしよう
・今度こそ更新系と分析系は統合できるか?IBMが考えるHTAPのアプローチと現実