EnterpriseZine(エンタープライズジン)

EnterpriseZine(エンタープライズジン)

テーマ別に探す

データをこじらせて―モダーンDWHのすすめ

edited by DB Online   2013/12/25 11:00

 お久しぶりでございます。すっかり間が空いてしまったこのコーナーですが、まだまだ続きます。久しぶりにお会いした北川さんが訴えるのは、ビッグデータでもスモールデータでもなく、モダーンDWH。モダーン。

腐データの哀しみ

 北川:僕ね、いま、データサイエンティストみたいなことをやっているんですよ。

 小泉:おお!流行りの。

 北川:でね、最近はビッグデータはもう面倒とか、スモールデータがいいとか、いろいろ言うでしょう。

 小泉:はい。スモールデータ、出てきましたね。

 北川:でね、僕ね、いま、データサイエンティストみたいなことをやっているんですけどね。

 小泉:それは聞きました。

 北川:なにをやっているかというと、DWHを持っているお客さまのところのデータをもらって、「御社でお持ちのデータで、こういうことできますよ」って、サンプルで試したりするんです。だいたい、お客さまのイメージとしては、DWHの中のデータを、もぞもぞ分析すれば、なんか出てくるんじゃないかと思ってるわけです。

 小泉:私もそんなイメージです。

 北川:でもね、お客さまからもらうデータがひどい!

 小泉:ひどいとは?

 北川:腐っている!

 小泉:腐っている!腐データ!

 北川:とにかく、きれいなモデルになったことがないんです。マスターとディテールというのがあります。商品マスター、得意先マスターをまるっともらって、受注データをもらいます。こちらとしては、モデルをつくって、「こんな分析ができます」「こうデータマイニングをかけるとこんな傾向わかりました」とやりたい。

 小泉:やったらいいじゃないですか。

 北川:ところが、ですよ!商品マスターに登録されていない商品が、売れていたりするんですよ!得意先マスターに登録されていない得意先にものを売ってたりするんですよ!どうしたらいいんですか!

 小泉:「マスターにないものがある」これが今回の問題ですね。

 北川:はい。これまで僕がおこなってきた分析では、かなりの高確率でヒットしますね。マスターにないもの。腐ってるレベルは、ちょっと傷んでいるレベルから、糸をひいているものレベルまでさまざまです。顧客マスターにない顧客からの受注や商品マスターにない商品の受注のレコードがある、とかね、もうどういうことなのかと。ひどい受注データをクレンジングして、なんとか乗り越えて、次のステップに進むとしましょう。次に出てくる問題は、商品マスターが分析したい軸がなく作られてる。商品の大分類中分類小分類できてない。べたーっと入っている。これが非常に困るわけです。

 小泉:こじらせてますね。

 北川:たとえば、小売店に商品を卸している商社のデータがあるとしましょう。ものすごく商品データが多いわけですよね。サランラップ、髭剃り、シャンプー。とにかくいろいろある。で、シャンプーがどれくらい売れたかを見たい時に、「シャンプー」っていうカテゴリが整備されてないわけです。女性用シャンプー、男性用シャンプー、薬用シャンプーってカテゴリが整備できてない。

 小泉:「シャンプー」っていうカテゴリだけでは分析できない。

 北川:だってね、「シャンプーとリンスの売り上げを比べるとシャンプーの方が多いですね」じゃだめじゃないですか。

 小泉:なるほど。このカテゴリの整備というのは、本来は誰がやるべきなんですか。

 北川:設計時点では情報システム部門の人ですよね。おそらく、分析して判断したい人がいて、その人が分析してみて、「こういうカテゴリがほしいなあ」って情報システムの人にフィードバックする、というのが理想的。ところが、情シスでは、JANコードに基づいて分類したりしているから。

 小泉:データを分析する人がカテゴリをフィードバックすべきと。なんというか、データサイエンティストうんぬん以前の話ですね。ユーザー側が、フィードバックをしなくてはならないわけですね。

腐データについて解説する北川さん
腐データについて解説する北川さん

※この続きは、会員の方のみお読みいただけます(登録無料)。


※この続きは、会員の方のみお読みいただけます(登録無料)。


著者プロフィール

バックナンバー

連載:マイクロソフト北川さんとお話

もっと読む

All contents copyright © 2007-2020 Shoeisha Co., Ltd. All rights reserved. ver.1.5