data tech 2019 レポート（AD）

データ分析結果を左右するデータマネジメント――データの経年劣化と向き合うために必要な6つの活動

2019/12/12 08:00

通知

　シンプルながら奥の深い「データマネジメント」で、企業のDX挑戦をサポートするリアライズ。NTTデータのグループ会社でありながら、SI事業はやっていない。「data tech 2019」では同社取締役櫻井崇氏による「DXを加速度的に推進するデータマネジメントのあり方～組織横断でデータ活用を実現するデータ整備と体制とは～」と題した講演が行われた。データ分析活用のために必要不可欠なデータマネジメントとは――。

通知

「データマネジメント」とは何か

　デジタルトランスフォーメーション（DX）に挑戦する企業にとって、これまでに蓄積してきたデータは貴重な資産だ。しかし、社内システムに置かれているデータは経年劣化や散逸という問題を抱え、単純に集約しただけでは分析可能で有用的なデータにはならない。

　ここで必要になるのがデータマネジメントだ。1カ所にデータソースを集約する「マスターデータ統合（MDM）」の整備」から始め、「データマネジメントの組織体制の整備」「データ品質の向上」を行い、最終的にはBIツールにきれいなデータを渡して初めて「データ分析」ができるようになる。リアライズは、このDX成功の根幹を支えるデータマネジメントという、地味ではあるが今最もニーズの大きいサービスの提供を手がける会社であり、現場調査から、方針策定、データ構築、データ運用までのサービスをワンストップで提供する。

　元々、櫻井氏は金融機関のシステム開発に携わり、その後2010年からリアライズでデータマネジメントプロジェクトに従事しはじめたという経歴を持つ。これまでに同社が支援した大小約1,100件のデータマネジメントプロジェクトの実績から、データマネジメントは「見える化の実現」「業務効率化」「顧客満足度の向上」「ビジネス変化への柔軟な対応」などの様々な価値をもたらすと櫻井氏は語る。

　現在、多くの企業がデータ分析を行うため、社内外のデータを集約するDMP（Data Management Platform）の構築を進めている。しかし、DXを推進するビジネス部門が種類や形式の異なるデータを自由に利用できるようにするには、データ品質を保つルールやプロセスに即した管理と編集加工が不可欠になる。

　データ分析の前段階でつまずく原因は主に三つある。第一に、データの設計ミスやメンテナンスが行き届いていないこと。第二に改竄や不正。そして最後にデータ移行やアプリケーションの障害だ。こういった要因による失敗を回避するためにあるのが、データマネジメントだと櫻井氏は強調する。

　では、そもそもデータマネジメントとは何か。単純にデータを管理することと考えては本質を見失う。櫻井氏は、データを登録・更新・活用する業務と、その業務を遂行するために必要な、データを蓄積しておく仕組みの構築や維持、データ構造の可視化やデータの意味管理、責任体制の確立までが「マネジメント」の意味に込められていると解説し、「ファクトであるデータと向かい合うこと」が重要と訴えた。

　リアライズへサポートを依頼する企業の要望は、主に「システムの中身であるデータを整理したい」「システム刷新に伴い、活用できるデータを作り直したい」といった2点のデータマネジメント支援に大別される。そこで同社が用意しているのが以下の六つのサポートメニューだ。

現状分析とマスター統合
マスターデータのクレンジング・名寄せ
データ編集・加工
データカタログの作成
データマネジメント組織の立ち上げ
データ移行

　では、6段階のサポートメニューで、具体的にどのようなことが行われているのだろうか。

6段階でデータマネジメントをサポート

現状分析とマスター統合

　まず、データの取り扱われ方の現状分析と、最適なマスター統合の方式の検討から始める。複数のシステムを統合する場合、統合マスターにてデータの登録・更新を行い周辺システムに配信するMDMの方式にいきなり持っていくのは難しい。そこで櫻井氏は「調和型」と呼ぶ折衷案を提案する。これは統合マスターと周辺システムの両方でメンテナンスを行いつつ、徐々に完全なMDMに近づけるというもの。大企業の場合は周辺システムが100以上あることも珍しくない。各社の状況に応じてマスター数が多い場合はこの方式を勧めているという。

クレンジング・名寄せ

　次に、統合の前に必要な作業がクレンジングと名寄せだ。顧客データの場合、未入力のフィールドがあったり、入力形式にばらつきがあったり様々であるが、ツールを使えば一定範囲を自動的にクレンジングしてくれるという。

　名寄せはクレンジング後に、顧客データプロファイルと活用方針（分析軸など）に合わせて、マッチング方針を決める。例えば、会社名、住所、電話番号、URL、メールドメインなどのリストがあった場合、どの程度一致しているパターンを「一致」とみなすか決定する。その後は、地図情報や電話帳データ、住所、郵便番号、電話番号の局番の辞書データを用いて補完処理を行う。一度では終わらないので、できあがったデータを確認しながら、ある程度きれいになるまで繰り返す。商品データの場合、クレンジングや名寄せを繰り返すよりも不要なレコードを排除することによって、効率的にデータ分析に適したデータに整えることが多いという。

編集・加工

　編集や加工処理はデータサイエンティストが分析の前に行う前処理に該当する。リアライズに寄せられる企業の声は「前処理に時間がかかって大変なので、助けてほしい」というものが多いという。櫻井氏は「そもそも何のためにやるのかを確認してほしい。前処理というのは分析のためにデータ品質の上昇を目的としています」と強調した。ここでの「品質」は、データ分析を行った結果の精度のことを意味する。満足できる精度に達するまで時間をかけてでも一定水準まで持っていくのが編集・加工だというのだ。一つの案として、ユーザー企業側の使用に適したセルフETLツールを試すことを櫻井氏は提案した。

段階的に「全てのデータ」をカタログ化すべき

データカタログ

　データカタログとは、社内で保有しているあらゆるデータ資産をカタログ化して共有し、ユーザーによる検索と活用を可能にするもの。MDMと混同しているケースも見られるが、データの場所、特徴、意味の定義までが明確化されていなくてはカタログと呼べない。櫻井氏は「データカタログには全てのデータを含まなくてはならない」と強調した。

　とはいえ、最初から一気に全てのデータ資産のカタログ化を目指そうとするのではなく、目的を絞って必要なものから揃え、成果を積みながら徐々に拡張することが望ましい。一例として、とある会社では、どこに何のデータがあるかわからないという状態だった。そこで全300テーブルのサービスシステムの中から、主要なエンティティの概念モデルを抽出し、それを基に枝葉になる部分を追加することにしたというケースもある。

　もちろん、データカタログの整備後も作りっぱなしにはできない。データカタログが運用フェーズに入った後は、メンテナンスを担当する開発側と、ビジネス部門など「データ分析依頼者」の間に、「データカタログ担当者」を置く必要があると櫻井氏は主張する。データカタログ担当者の主な役割は、カタログの変更情報をデータ分析依頼者に周知すると同時に、定期的なカタログの監査を行うことだ。たとえリソースに制約があったとしても、誰かがやってくれるだろうと曖昧にすることなく、兼務でもいいので最初から主担当と副担当を任命することが重要と櫻井氏は訴えた。

データマネジメント組織の立ち上げ

　適切なデータガバナンスの効いたデータマネジメント推進組織の理想像として櫻井氏が示したのは、下図のようにチーフデータオフィサーを頂点とする体制である。DXを推進するビジネス部門とIT部門の両方が関わるようにし、「データオーナー」「データスチュワード」「データユーザー」の三つの役割を担当する人物を明確にする必要がある。

　データオーナーとは、データを生み出す主幹組織の管理責任者もしくは責任者の付託を受けた管理者の役割。そして、データスチュワードは各データオーナーからデータを収集し、蓄積することをミッションとした主幹組織の管理責任者もしくは責任者の付託を受けた管理者であり、全体のシステムを管掌するIT部門に設置する役割である。さらにビジネス部門でデータを活用するデータユーザーを加えた三つの機能がそれぞれ縦割りにならないよう、三つの機能を束ねるデータガバナンスオフィサーを置くことができれば理想的だ。

　この他、リアライズでは最後のステップである「データ移行」で考慮するべきポイントを11個にまとめた資料をダウンロードできるようにしている。データマネジメントなくして、データ分析や新しいビジネスの創造は難しい。現在のデータ分析に悩みを抱えているならば、自社のデータマネジメントの現状を見直してみることが解決の第一歩になるだろう。

この記事は参考になりましたか？