谷川 「ニッポンを強くする! データ活用の未来」と題して行われた日立さん、ウイングアーク1stさん、富士通さんのセッションのまとめ、フォローアップのため、リレーセッションを開催します。
DB高速化により、事前にやっておく処理を後回しにできる時代がきた
谷川 まず日立さんからまいりましょう。日立さんは、人事ローテーションを内部で行って開発者が現場を知り、その経験を製品に反映させている。すごく必要なアプローチだと思います。
本題に入る前に「データ活用のレベル」について、会場アンケートを行います。こんな結果が出ました。
- ビッグデータ、高度なアナリティクスを行っている :10人
- DWH、データマートなどでBIツールを使っている :24人
- 定型レポート程度 :57人
- ほとんどデータ分析に手をつけてない :6人
もう少し2が多いかと思いましたが、やはり3が多い。まだまだ帳票、Excelレベル感が世の中では強いなという感じです。次のステップに行くにはどう考えればいいのでしょうか。
桐越 まず、データ活用の目的が何かだと思います。業務の日々の進捗を見るなどの目的で使うのであれば、点在し、サイロ化している業務システムからデータを集める、統合DBのようなものを作ることになる。
ただデータを収集する際、今の業務DBに負荷をかけてしまうと、オペレーションのレスポンスが下がってしまう。そこで、DBの更新ジャーナルから裏でデータを引き抜いてきて、統合DBに入れることを考えています。
またデータ加工の方法にも幾つかパターンがあります。例えば統合DBにデータを格納するための文字コード変換やフォーマット変換、1対Nのレコードの分解処理などは、SOA的な基盤を使ってリーズナブルにやることもできます。一方で、データのクレンジングや標準化をするとなると、この部分の処理はETL製品をアドオンするなどの対応が必要になる場合もあります。
このデータの標準化で難しいのは、コード変換の仕様を策定するにあたり、全社的視点で仕様を策定できる立場に無いケースや、仕様策定の段階で、将来のデータ活用シーンを想定することが難しいケースです。そうしたケースに関しては、収集したデータをそのまま統合DBに放り込んでおいて、あとで組み合わせることにより、そこで初めて標準化するというパターンが考えられます。これが最近、DBの高速化によって実用化できるようになったと考えています。
谷川 この数年、「データを活かす」という考えがあり、「出てくるログのようなデータをとにかく入れてしまう、とにかく全部集めよう」という発想があると思います。それがビッグデータアナリティクスに繋がると捉えても大丈夫でしょうか。
桐越 そうですね。ただお客様と色々な話をすると、「どう使うか分からないが、貯め込めるだけ貯める」では稟議が通りません。これはニワトリと玉子みたいな話ですね。
谷川 それを何か、データベーステクノロジー側でできる解決法はないでしょうか。
桐越 私の立場としてはストレージを売りたいので、どんどんデータを貯め込んでいただきたいのですが、お客様も価値が無いものには予算を付けてくれません。
ただDBの高速化により、事前にやっておく処理を後回しできる時代に来たと思います。以前は見る観点から「どうやって集めるのか、どう加工するのか」の設計にものすごく時間とお金がかかっていた。それが高速化により、ある程度考えれば良くなっている。とにかくやり始めやすくなったということです。
谷川 DBといわれる製品がカバーする範囲が広くなっている気がしています。
そういう認識が、ビッグデータ、IoTの時代には必要なのかなと思うのですが、それを日立的にはどうお考えでしょうか。DBの進化なのか、肥大化なのか。
桐越 DBのカバー範囲が広くなっているというのは、確かにあると思います。扱えるデータの量が増え、形式も増えてきた。ただ、それぞれに色々なAPIを使わないとならないのは非常に面倒くさいので、最終的には「SQL一本で全部まとめたい」ということがあるのかなと思います。
谷川 最後に日立のデータ活用おける、こだわりをお聞きしたい。ここだけは譲れないとか、ここは自信を持っているという話を。
桐越 一番の理想は、情シス部門が手を動かさなくても、エンドユーザーが自分で収集し、加工し、活用できるような環境の提供だと思っています。しかし、なかなかそこまではたどり着けない。情報の収集ということでは、HTTPのパケットのキャプチャーなども対象として手を広げています。そこで集まったデータで、人間行為の変化を見ることができる。要は、情報をとにかく集めてくることにこだわりを持っています。
石川 データ活用において、DBの高速化というポイントソリューションは大事だと思っていますが、日立としてはSIerという顔もあります。ですからSIという形も含めて、データ発生から活用に至るトータルの視点で最適化するご提案にこだわりたいと思っています。