ビッグデータというキーワードが普及するにつれ、データの価値が重要視されるようになってきた。なかでもIBMは「データは天然資源である」と目している。ただしデータはデータとして存在するだけでは意味をなさない。データは分析というプロセスを経て磨かれ、価値を持つようになる。それでデータ分析のスペシャリストとなるデータサイエンティストも脚光を浴びるようになってきている。
とはいえ、一般の業務やデータベース運用業務の現場ではデータ分析の重要性を理解しつつも、まだ本格的な実践や活用まで到達していないところが多いのが実情ではないだろうか。一志氏がデータ分析に関する話題を提供しつつ、皆で意見交換した。
まず一志氏はIBMが出しているデータ分析のライフサイクルを示した。最初は業務を理解するところから始め、次にデータの理解、具体的にはどのようなデータ(項目)が必要なのかに落とし込んでいく。このあたりは計画段階といえようか。
続いて実践段階。必要なデータを準備(調達)し、そのデータのモデリングを行う。言い換えれば、データモデルの仮説を作成して実際のビジネスに適用してみるということ。その後は評価段階へと進む。準備したデータとモデルを適用した結果を見て、仮説が正しかったかどうかを評価する。もし全く見当違いの結果なら振り出しに戻るということもある。ある程度評価できるならビジネスに展開していきつつ、改善点をモデリングにフィードバックする。……といった流れを延々と繰り返すのが全体の流れとなる。
このサイクルはいわばIBMが示す「データ分析のお手本」のようなもの。これを見て一志氏がどう思う?と参加者に聞いてみると、いろんな意見が出てきた。
「パラメータ(データ)を用意するといっても、いろいろあるのでは?」。つまり、知りたいことに対して影響を与える項目は無尽蔵にありそうだし、予想外な出来事がビジネスを大きく変えてしまうこともある。データ分析はそう簡単にはいかないのではという心情がうかがえる。
「スタート(業務の理解)とエンド(モデルへのフィードバック)はそれでいいだろうか?」。分析した結果のフィードバックはデータモデルだけではなく、業務そのものにも向けられてもいいのでは?という指摘も出た。
「うちはデータ分析には着手しているが、「評価」の先に進んでいない」。分析した結果を評価するあたりまではたどり着いているものの、その評価を次のステップに生かせない人もいた。さらに進めるにはさらに時間やコストをかける必要があり、そこが壁になりいまは頓挫してしまっているとのこと。データ分析の実践に着手できても、その先に立ちはだかる壁もあるようだ。
確かにデータ分析結果を評価するのは難しいかもしれない。ほかの参加者によると、「業務にもよる」という。例えばメディアなら施策に対する結果は比較的分かりやすいそうだ。しかし医療など多様な要素が絡み合うような業務となると分析結果の評価は難しくなる。こういう複雑なものとなると、何度もサイクルを回しながら模索していく必要があるのかもしれない。
なかなかビッグデータの実践に踏み切れない。その理由ひとつとして「ビッグデータ」を実践するときのイメージが技術者には敷居の高いものになっているのかもしれない。一志氏はこんな問いを投げかけた。
「データはビッグでないといけませんか?」
データベース技術者はこう考えていないだろうか。「相当大きなデータを扱わないとビッグデータ分析と言えないのでは。巨大なデータを扱うとなるとそれなりのシステムリソースが必要となり、コストもかかりそうだ。そこまでできるだろうか」と。「ビッグ」なイメージがプレッシャーとなり、及び腰になっているところがあるのかもしれない。
一志氏は「ビッグデータの正体」の共著者であるケネス・クキエ氏の言葉を引用した。クキエ氏によるとビッグデータとは「少量のデータでは実現できないことが可能になるだけのデータ量があり、新たな知の抽出や価値の創出につながること」と定義される。つまりデータの大きさにはこだわらなくてもいいということだ。
加えて「精度にこだわならないこと」。従来のシステムの感覚なら入力と結果が明確であり、確実性を要件としていたかもしれない。また今から考えると分析範囲(分析するデータ量)はそう広くはなかった。ビッグデータの分析はこれと異なる。広い範囲から「ばっくり」と何らかの傾向を見いだそうとする。こうした発想の転換もビッグデータと向き合うときに重要になりそうだ。
好例として、ネット検索結果からインフルエンザの発症を予測するというのがある。従来インフルエンザ発症数を把握するなら、衛生当局からデータを収集していた。アメリカだと2週間ほどかかるそうだ。感染症の世界的流行はできるだけ早く兆候を抑えなくてはいけないため、数週間も待つのでは遅い。しかしユーザーがネット検索で用いたキーワード「せきの薬」や「解熱剤」を分析すれば、精度は高いとはいえないまでもほぼリアルタイムに把握できるというのだ。こうした要件に対してビッグデータがうまくはまるのだろう。
意外なデータも示された。ビッグデータというと、テレビではソーシャルメディアの分析結果が出されることもあり、ソーシャルなど非定型なデータというイメージが強い。しかしある調査によると、ビッグデータ分析で使われるデータの実に7割がトランザクションだという。トップは従来型の定型データというのだ。次にログデータ、マシンデータと続く。4番目にようやく非定型となるソーシャルのデータが出てくる。割合にして約3割。意外に少ない。
ビッグデータ分析に使われるデータが従来型のRDBMSで扱うデータが多いことを根拠として「データベース技術者がデータ分析業務に向いている」と断言するには無理がある。とはいえ、データベース技術者はデータサイエンティストやデータ分析にはそれなりに近い位置にいるといえないだろうか。RDBMSを使いこなせることは1つの武器になりそうだ。
一志氏は「今回の話では特に決まった結論はないけど、それぞれデータベース技術者としてデータ分析という業務について関心を持ち、考えてみてほしい」と話していた。