お久しぶりでございます。すっかり間が空いてしまったこのコーナーですが、まだまだ続きます。久しぶりにお会いした北川さんが訴えるのは、ビッグデータでもスモールデータでもなく、モダーンDWH。モダーン。
-
- Page 1
腐データの哀しみ
北川:僕ね、いま、データサイエンティストみたいなことをやっているんですよ。
小泉:おお!流行りの。
北川:でね、最近はビッグデータはもう面倒とか、スモールデータがいいとか、いろいろ言うでしょう。
小泉:はい。スモールデータ、出てきましたね。
北川:でね、僕ね、いま、データサイエンティストみたいなことをやっているんですけどね。
小泉:それは聞きました。
北川:なにをやっているかというと、DWHを持っているお客さまのところのデータをもらって、「御社でお持ちのデータで、こういうことできますよ」って、サンプルで試したりするんです。だいたい、お客さまのイメージとしては、DWHの中のデータを、もぞもぞ分析すれば、なんか出てくるんじゃないかと思ってるわけです。
小泉:私もそんなイメージです。
北川:でもね、お客さまからもらうデータがひどい!
小泉:ひどいとは?
北川:腐っている!
小泉:腐っている!腐データ!
北川:とにかく、きれいなモデルになったことがないんです。マスターとディテールというのがあります。商品マスター、得意先マスターをまるっともらって、受注データをもらいます。こちらとしては、モデルをつくって、「こんな分析ができます」「こうデータマイニングをかけるとこんな傾向わかりました」とやりたい。
小泉:やったらいいじゃないですか。
北川:ところが、ですよ!商品マスターに登録されていない商品が、売れていたりするんですよ!得意先マスターに登録されていない得意先にものを売ってたりするんですよ!どうしたらいいんですか!
小泉:「マスターにないものがある」これが今回の問題ですね。
北川:はい。これまで僕がおこなってきた分析では、かなりの高確率でヒットしますね。マスターにないもの。腐ってるレベルは、ちょっと傷んでいるレベルから、糸をひいているものレベルまでさまざまです。顧客マスターにない顧客からの受注や商品マスターにない商品の受注のレコードがある、とかね、もうどういうことなのかと。ひどい受注データをクレンジングして、なんとか乗り越えて、次のステップに進むとしましょう。次に出てくる問題は、商品マスターが分析したい軸がなく作られてる。商品の大分類中分類小分類できてない。べたーっと入っている。これが非常に困るわけです。
小泉:こじらせてますね。
北川:たとえば、小売店に商品を卸している商社のデータがあるとしましょう。ものすごく商品データが多いわけですよね。サランラップ、髭剃り、シャンプー。とにかくいろいろある。で、シャンプーがどれくらい売れたかを見たい時に、「シャンプー」っていうカテゴリが整備されてないわけです。女性用シャンプー、男性用シャンプー、薬用シャンプーってカテゴリが整備できてない。
小泉:「シャンプー」っていうカテゴリだけでは分析できない。
北川:だってね、「シャンプーとリンスの売り上げを比べるとシャンプーの方が多いですね」じゃだめじゃないですか。
小泉:なるほど。このカテゴリの整備というのは、本来は誰がやるべきなんですか。
北川:設計時点では情報システム部門の人ですよね。おそらく、分析して判断したい人がいて、その人が分析してみて、「こういうカテゴリがほしいなあ」って情報システムの人にフィードバックする、というのが理想的。ところが、情シスでは、JANコードに基づいて分類したりしているから。
小泉:データを分析する人がカテゴリをフィードバックすべきと。なんというか、データサイエンティストうんぬん以前の話ですね。ユーザー側が、フィードバックをしなくてはならないわけですね。

この記事は参考になりましたか?
- マイクロソフト北川さんとお話連載記事一覧
- この記事の著者
-
小泉 真由子(編集部)(コイズミ マユコ)
情報セキュリティ専門誌編集を経て、2006年翔泳社に入社。エンタープライズITをテーマにイベント・ウェブコンテンツなどの企画制作を担当。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
この記事は参考になりましたか?
この記事をシェア