6段階でデータマネジメントをサポート
現状分析とマスター統合
まず、データの取り扱われ方の現状分析と、最適なマスター統合の方式の検討から始める。複数のシステムを統合する場合、統合マスターにてデータの登録・更新を行い周辺システムに配信するMDMの方式にいきなり持っていくのは難しい。そこで櫻井氏は「調和型」と呼ぶ折衷案を提案する。これは統合マスターと周辺システムの両方でメンテナンスを行いつつ、徐々に完全なMDMに近づけるというもの。大企業の場合は周辺システムが100以上あることも珍しくない。各社の状況に応じてマスター数が多い場合はこの方式を勧めているという。
クレンジング・名寄せ
次に、統合の前に必要な作業がクレンジングと名寄せだ。顧客データの場合、未入力のフィールドがあったり、入力形式にばらつきがあったり様々であるが、ツールを使えば一定範囲を自動的にクレンジングしてくれるという。
名寄せはクレンジング後に、顧客データプロファイルと活用方針(分析軸など)に合わせて、マッチング方針を決める。例えば、会社名、住所、電話番号、URL、メールドメインなどのリストがあった場合、どの程度一致しているパターンを「一致」とみなすか決定する。その後は、地図情報や電話帳データ、住所、郵便番号、電話番号の局番の辞書データを用いて補完処理を行う。一度では終わらないので、できあがったデータを確認しながら、ある程度きれいになるまで繰り返す。商品データの場合、クレンジングや名寄せを繰り返すよりも不要なレコードを排除することによって、効率的にデータ分析に適したデータに整えることが多いという。
編集・加工
編集や加工処理はデータサイエンティストが分析の前に行う前処理に該当する。リアライズに寄せられる企業の声は「前処理に時間がかかって大変なので、助けてほしい」というものが多いという。櫻井氏は「そもそも何のためにやるのかを確認してほしい。前処理というのは分析のためにデータ品質の上昇を目的としています」と強調した。ここでの「品質」は、データ分析を行った結果の精度のことを意味する。満足できる精度に達するまで時間をかけてでも一定水準まで持っていくのが編集・加工だというのだ。一つの案として、ユーザー企業側の使用に適したセルフETLツールを試すことを櫻井氏は提案した。