攻めの「データ活用」守りの「データマネジメント」
データマネジメントとは、『データエンジニアリングなどを用いデータを正しく管理するための方法論』だ。ポイントは前半のデータエンジニアリングの部分で、エンジニアが専門度の高い業務知識を用いて取り組むものだと小林氏は言う。その上でデータを正しく管理する必要があり、それができないままではさまざまな問題が発生する。
そもそも、データマネジメントの実現で行うべき3つのことがある。まずは『データの保管』で、どのシステムのどの場所にデータを置き、どのような状態で保管するのかという方法論を考えることだ。次に『データの品質』についても考える必要がある。誤ったデータや精度の低いデータを使い意思決定をしてしまうと、さまざまな問題が発生する。さらにデータを扱う際には、『データの意味』についても考慮すること重要だ。これら3つが、データマネジメントに取り組む際のポイントとなる。
正しく集めて統合できないと、データは社内に散在する。そうなればユーザーは分析のたびにデータを探さねばならず、それを繰り返すことは大きな手間だ。また、データの定義がわかっていない状況も困るだろう。たとえば、売り上げが税込みか税抜きなのか、ECサイトならキャンセル率が加味されているのかなどを明らかにする。それらがわからないと誤解を招きかねない。そのため、「データと一緒に、その意味と説明も保管します」と小林氏。「攻めのデータ活用と守りのデータマネジメントという言葉を、良く使わせてもらっています」とも言う。守りのデータマネジメントである品質管理などを行わないと、データ活用など攻めの効果が薄くなるばかりか、間違った攻めを行うことにもつながるからだ。
データマネジメントの一環として『データ統合』を行う必要がある。データ統合、データ分析、データ活用には順序関係があり、まずは分析する際にデータ分析基盤を作り、データを統合する。集めたデータに対して分析を行い、傾向や異常などを発見。この傾向などを基に、実際のビジネス施策に落とし込む。このビジネスへの適用がデータ活用にあたる。
続いて小林氏は、データマネジメントを実現するために利用できる3つのフレームワークを紹介した。これらはデータマネジメントの進捗と、分析基盤の構築における道標となるものであり、その1つ目が『DAMAホイール』だ。これはデータマネジメント協会が提唱しており、データマネジメントに必要な知識領域を10に分解し円の形に並べ、中心にデータガバナンスを据えたものだ。
2つ目は『Peter Aiken's Framework』であり、DAMAホイールを下敷きによりわかりやすい形となったものだ。データ分析を1番上に位置付け、データ提供がその下にある。さらに下には、さまざまな場所からデータを収集・保管するように描かれており、それらの土台となるデータ品質や利便性向上、データガバナンスの実行が最下部に位置するなど、それぞれの関係性がわかりやすく表現されている。
3つ目は「The Modern Data Stack」だ。データ分析基盤において、現代の環境にマッチするクラウドサービスやSaaSツール群、それらの組み合わせが列挙されているもので、データ活用領域の拡大によるトレンドの変化を示す、バズワードとして知られている。一例として紹介された英Snowplow社作成の『The modern data stack: a guide』には、データウェアハウスを中心に最新のサービス群が体系的にまとめられている。