「ビッグデータ」は、今までの「データ」と何がどう、ちがうのか
―オラクルに長いこと勤めていらっしゃるとうかがいました。
そうですね。大卒ですぐ入社して、それからずっとオラクルにいます。今年で23年目ですね。データベースチームの開発者として私のキャリアは始まりました。初めてかかわったリリースはOracle 6.0。当時はまだ小さい会社でしたね。最初の12年間は個別のソフトウェア開発をしていました。その後はデータウェアハウスとビッグデータのチームを率いています。
―それでは、今日はビッグデータについてお聞きかせいただければと思います。まずはデータの「ビッグ」な部分について教えてください。たとえば、テラ、ペタ、といわれても、どれくらいの量なのか、どれくらいの違いがあるのか、いまいち実感としてわからないのですが、どんな風にとらえればいいのでしょうか?
ビッグデータというのは、実はサイズの話だけではないんです。ビッグデータというものを定義するにあたっては、「密度の高いデータ」と「密度の低いデータ」と考えるといいでしょう。
たとえば、あなたが自分の銀行口座から、誰かの口座に送金をしたとしましょう。この時点でだいたい200バイトくらいのデータが生成されています。この200バイトの情報は、サイズは小さくても、銀行にとって失ってはいけない大切なデータです。つまり、とても「密度の高いデータ」です。バイトあたりの価値を考えたときに、価値の高いデータは「密度の高いデータ」なのです。
同じように、たとえばあなたがインターネットで、オンラインバンキングのサイトにログインして、銀行のサービスや、金融商品の案内を見たとしましょう。こういった作業でもどこかにウェブのログが残ります。「このウェブサイトを見ましたよ」というデータが、およそ30キロバイトから50キロバイトぐらいです。しかし、こうしたデータは、「密度の低いデータ」なんです。あなたがどういったサービスや商品に関心を示したかというのは銀行にとっては役に立つ情報ではある。だけど、さっき話したような「密度の高いデータ」に比べてバイトあたりの価値は低いんですね。
そして、いわゆる「ビッグデータ」に関連したテクノロジーというのは、こうした「密度の低いデータ」を幅広く収集して分析しようという話。これが、まず半分です。
―なるほど。「幅広い」部分がビッグであると。もう半分はなんでしょうか?
従来型のデータ分析の延長線上にある部分です。従来のデータウェアハウスは、「密度の高いデータ」を取得し、収集することに優れていました。ビッグデータと騒がれるずっとずっと前から、高密度なデータの収集と分析というのはすでに多くの企業が行なっていたことなんですよ。
―今までのデータウェアハウスは、高密度なデータを活用していたんですね。では、これからのデータウェアハウスは何が変わってくるのでしょうか。
従来のデータウェアハウスというのは、他のデータベースからデータを取り込んで分析していました。他のデータベースから取得するというのは、人が入力したデータを取得していたということです。これからは、これに加えて、マシンによって収集されたデータも分析することになります。
―マシンによって収集されたデータというのは・・・
たとえば携帯電話が生成しているロケーション情報、スマートメーターのデータ、ヘルスモニターが発信するデータ、その他のセンサーデータなどです。
―ビッグデータですよね。
そうですね。まとめると、従来型のクラシカルなデータウェアハウスが、高密度なデータの要件に使うのが適していることには今も変わりありません。オラクルが得意としてきた分野です。しかし、ビッグデータによって、従来のデータウェアハウスの機能が、2つの方法で拡張されることになります。まずは、マシンが生成する幅広い、低密度なデータを収集し、分析を行なうことができるようになった。そしてもうひとつは、すでに持っている高密度なデータにたいしてより深い分析を行なうことができるようになった。
「より深いデータの分析」と「より幅広いデータの収集」―これがビッグデータの定義です。