DB Press

「データ分析」と「データベース技術者の心」の距離は近いか遠いか

2014/08/30 00:00

通知

　7月18日、IBM DB2の勉強会「ClubDB2」が開催された。テーマは「データベース技術者は、データとどう向き合えばいいのか。みんなで考えてみよう!」。ビッグデータをテーマに動向解説にディスカッションを交えた会となった。講師は一志達也氏。

通知

一志達也氏

　ビッグデータというキーワードが普及するにつれ、データの価値が重要視されるようになってきた。なかでもIBMは「データは天然資源である」と目している。ただしデータはデータとして存在するだけでは意味をなさない。データは分析というプロセスを経て磨かれ、価値を持つようになる。それでデータ分析のスペシャリストとなるデータサイエンティストも脚光を浴びるようになってきている。

　とはいえ、一般の業務やデータベース運用業務の現場ではデータ分析の重要性を理解しつつも、まだ本格的な実践や活用まで到達していないところが多いのが実情ではないだろうか。一志氏がデータ分析に関する話題を提供しつつ、皆で意見交換した。

　まず一志氏はIBMが出しているデータ分析のライフサイクルを示した。最初は業務を理解するところから始め、次にデータの理解、具体的にはどのようなデータ（項目）が必要なのかに落とし込んでいく。このあたりは計画段階といえようか。

　続いて実践段階。必要なデータを準備（調達）し、そのデータのモデリングを行う。言い換えれば、データモデルの仮説を作成して実際のビジネスに適用してみるということ。その後は評価段階へと進む。準備したデータとモデルを適用した結果を見て、仮説が正しかったかどうかを評価する。もし全く見当違いの結果なら振り出しに戻るということもある。ある程度評価できるならビジネスに展開していきつつ、改善点をモデリングにフィードバックする。……といった流れを延々と繰り返すのが全体の流れとなる。

　このサイクルはいわばIBMが示す「データ分析のお手本」のようなもの。これを見て一志氏がどう思う？と参加者に聞いてみると、いろんな意見が出てきた。

　「パラメータ（データ）を用意するといっても、いろいろあるのでは？」。つまり、知りたいことに対して影響を与える項目は無尽蔵にありそうだし、予想外な出来事がビジネスを大きく変えてしまうこともある。データ分析はそう簡単にはいかないのではという心情がうかがえる。

　「スタート（業務の理解）とエンド（モデルへのフィードバック）はそれでいいだろうか？」。分析した結果のフィードバックはデータモデルだけではなく、業務そのものにも向けられてもいいのでは？という指摘も出た。

　「うちはデータ分析には着手しているが、「評価」の先に進んでいない」。分析した結果を評価するあたりまではたどり着いているものの、その評価を次のステップに生かせない人もいた。さらに進めるにはさらに時間やコストをかける必要があり、そこが壁になりいまは頓挫してしまっているとのこと。データ分析の実践に着手できても、その先に立ちはだかる壁もあるようだ。

　確かにデータ分析結果を評価するのは難しいかもしれない。ほかの参加者によると、「業務にもよる」という。例えばメディアなら施策に対する結果は比較的分かりやすいそうだ。しかし医療など多様な要素が絡み合うような業務となると分析結果の評価は難しくなる。こういう複雑なものとなると、何度もサイクルを回しながら模索していく必要があるのかもしれない。

　なかなかビッグデータの実践に踏み切れない。その理由ひとつとして「ビッグデータ」を実践するときのイメージが技術者には敷居の高いものになっているのかもしれない。一志氏はこんな問いを投げかけた。

　「データはビッグでないといけませんか？」

　データベース技術者はこう考えていないだろうか。「相当大きなデータを扱わないとビッグデータ分析と言えないのでは。巨大なデータを扱うとなるとそれなりのシステムリソースが必要となり、コストもかかりそうだ。そこまでできるだろうか」と。「ビッグ」なイメージがプレッシャーとなり、及び腰になっているところがあるのかもしれない。

　一志氏は「ビッグデータの正体」の共著者であるケネス・クキエ氏の言葉を引用した。クキエ氏によるとビッグデータとは「少量のデータでは実現できないことが可能になるだけのデータ量があり、新たな知の抽出や価値の創出につながること」と定義される。つまりデータの大きさにはこだわらなくてもいいということだ。

　加えて「精度にこだわならないこと」。従来のシステムの感覚なら入力と結果が明確であり、確実性を要件としていたかもしれない。また今から考えると分析範囲（分析するデータ量）はそう広くはなかった。ビッグデータの分析はこれと異なる。広い範囲から「ばっくり」と何らかの傾向を見いだそうとする。こうした発想の転換もビッグデータと向き合うときに重要になりそうだ。

　好例として、ネット検索結果からインフルエンザの発症を予測するというのがある。従来インフルエンザ発症数を把握するなら、衛生当局からデータを収集していた。アメリカだと2週間ほどかかるそうだ。感染症の世界的流行はできるだけ早く兆候を抑えなくてはいけないため、数週間も待つのでは遅い。しかしユーザーがネット検索で用いたキーワード「せきの薬」や「解熱剤」を分析すれば、精度は高いとはいえないまでもほぼリアルタイムに把握できるというのだ。こうした要件に対してビッグデータがうまくはまるのだろう。

　意外なデータも示された。ビッグデータというと、テレビではソーシャルメディアの分析結果が出されることもあり、ソーシャルなど非定型なデータというイメージが強い。しかしある調査によると、ビッグデータ分析で使われるデータの実に7割がトランザクションだという。トップは従来型の定型データというのだ。次にログデータ、マシンデータと続く。4番目にようやく非定型となるソーシャルのデータが出てくる。割合にして約3割。意外に少ない。

　ビッグデータ分析に使われるデータが従来型のRDBMSで扱うデータが多いことを根拠として「データベース技術者がデータ分析業務に向いている」と断言するには無理がある。とはいえ、データベース技術者はデータサイエンティストやデータ分析にはそれなりに近い位置にいるといえないだろうか。RDBMSを使いこなせることは1つの武器になりそうだ。

　一志氏は「今回の話では特に決まった結論はないけど、それぞれデータベース技術者としてデータ分析という業務について関心を持ち、考えてみてほしい」と話していた。

この記事は参考になりましたか？

印刷用を表示

DB Press連載記事一覧: 「menu」が試してわかったマイクロサービスとTiDBの相性、デリバリー事業の急成長を支え...

コンテンツ制作の現場にもデータ活用の波──日テレが“長年のサイロ化”を統合プラットフォーム...

“カンブリア砲”にも耐えた、登山地図GPSアプリ「YAMAP」の急成長を裏で支えるインフラ...

もっと読む

この記事の著者: 加山恵美（カヤマエミ）

EnterpriseZine/Security Online キュレーターフリーランスライター。茨城大学理学部卒。金融機関のシステム子会社でシステムエンジニアを経験した後にIT系のライターとして独立。エンジニア視点で記事を提供していきたい。EnterpriseZine/DB Online の取材・記事も担当しています。Webサイト：https://emiekayama.net

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事