腐データの哀しみ
北川:僕ね、いま、データサイエンティストみたいなことをやっているんですよ。
小泉:おお!流行りの。
北川:でね、最近はビッグデータはもう面倒とか、スモールデータがいいとか、いろいろ言うでしょう。
小泉:はい。スモールデータ、出てきましたね。
北川:でね、僕ね、いま、データサイエンティストみたいなことをやっているんですけどね。
小泉:それは聞きました。
北川:なにをやっているかというと、DWHを持っているお客さまのところのデータをもらって、「御社でお持ちのデータで、こういうことできますよ」って、サンプルで試したりするんです。だいたい、お客さまのイメージとしては、DWHの中のデータを、もぞもぞ分析すれば、なんか出てくるんじゃないかと思ってるわけです。
小泉:私もそんなイメージです。
北川:でもね、お客さまからもらうデータがひどい!
小泉:ひどいとは?
北川:腐っている!
小泉:腐っている!腐データ!
北川:とにかく、きれいなモデルになったことがないんです。マスターとディテールというのがあります。商品マスター、得意先マスターをまるっともらって、受注データをもらいます。こちらとしては、モデルをつくって、「こんな分析ができます」「こうデータマイニングをかけるとこんな傾向わかりました」とやりたい。
小泉:やったらいいじゃないですか。
北川:ところが、ですよ!商品マスターに登録されていない商品が、売れていたりするんですよ!得意先マスターに登録されていない得意先にものを売ってたりするんですよ!どうしたらいいんですか!
小泉:「マスターにないものがある」これが今回の問題ですね。
北川:はい。これまで僕がおこなってきた分析では、かなりの高確率でヒットしますね。マスターにないもの。腐ってるレベルは、ちょっと傷んでいるレベルから、糸をひいているものレベルまでさまざまです。顧客マスターにない顧客からの受注や商品マスターにない商品の受注のレコードがある、とかね、もうどういうことなのかと。ひどい受注データをクレンジングして、なんとか乗り越えて、次のステップに進むとしましょう。次に出てくる問題は、商品マスターが分析したい軸がなく作られてる。商品の大分類中分類小分類できてない。べたーっと入っている。これが非常に困るわけです。
小泉:こじらせてますね。
北川:たとえば、小売店に商品を卸している商社のデータがあるとしましょう。ものすごく商品データが多いわけですよね。サランラップ、髭剃り、シャンプー。とにかくいろいろある。で、シャンプーがどれくらい売れたかを見たい時に、「シャンプー」っていうカテゴリが整備されてないわけです。女性用シャンプー、男性用シャンプー、薬用シャンプーってカテゴリが整備できてない。
小泉:「シャンプー」っていうカテゴリだけでは分析できない。
北川:だってね、「シャンプーとリンスの売り上げを比べるとシャンプーの方が多いですね」じゃだめじゃないですか。
小泉:なるほど。このカテゴリの整備というのは、本来は誰がやるべきなんですか。
北川:設計時点では情報システム部門の人ですよね。おそらく、分析して判断したい人がいて、その人が分析してみて、「こういうカテゴリがほしいなあ」って情報システムの人にフィードバックする、というのが理想的。ところが、情シスでは、JANコードに基づいて分類したりしているから。
小泉:データを分析する人がカテゴリをフィードバックすべきと。なんというか、データサイエンティストうんぬん以前の話ですね。ユーザー側が、フィードバックをしなくてはならないわけですね。