Data Tech 2022 レポート（AD）

データ分析基盤の0→1、1→10、10→100フェーズで直面する課題──データマネジメントの必要性

データ駆動型社会の実現では、攻めの「データ活用」と守りの「データマネジメント」を実践する

2023/05/08 10:00

通知

　EnterpriseZine編集部主催の年次データカンファレンス「Data Tech 2022」では、primeNumber 取締役執行役員 CPOの小林寛和氏が、今後のデータ駆動型社会の実現に向けて重要となる組織におけるデータマネジメントの実践について講演を行った。データ分析基盤の成長曲線を0→1、1→10、10→100のフェーズに分け、それぞれで何が起こり、何が必要でどのような課題が出てくるのかを説明し、データマネジメントの重要性を解説した。

通知

攻めの「データ活用」守りの「データマネジメント」

　データマネジメントとは、『データエンジニアリングなどを用いデータを正しく管理するための方法論』だ。ポイントは前半のデータエンジニアリングの部分で、エンジニアが専門度の高い業務知識を用いて取り組むものだと小林氏は言う。その上でデータを正しく管理する必要があり、それができないままではさまざまな問題が発生する。

　そもそも、データマネジメントの実現で行うべき3つのことがある。まずは『データの保管』で、どのシステムのどの場所にデータを置き、どのような状態で保管するのかという方法論を考えることだ。次に『データの品質』についても考える必要がある。誤ったデータや精度の低いデータを使い意思決定をしてしまうと、さまざまな問題が発生する。さらにデータを扱う際には、『データの意味』についても考慮すること重要だ。これら3つが、データマネジメントに取り組む際のポイントとなる。

　正しく集めて統合できないと、データは社内に散在する。そうなればユーザーは分析のたびにデータを探さねばならず、それを繰り返すことは大きな手間だ。また、データの定義がわかっていない状況も困るだろう。たとえば、売り上げが税込みか税抜きなのか、ECサイトならキャンセル率が加味されているのかなどを明らかにする。それらがわからないと誤解を招きかねない。そのため、「データと一緒に、その意味と説明も保管します」と小林氏。「攻めのデータ活用と守りのデータマネジメントという言葉を、良く使わせてもらっています」とも言う。守りのデータマネジメントである品質管理などを行わないと、データ活用など攻めの効果が薄くなるばかりか、間違った攻めを行うことにもつながるからだ。

　データマネジメントの一環として『データ統合』を行う必要がある。データ統合、データ分析、データ活用には順序関係があり、まずは分析する際にデータ分析基盤を作り、データを統合する。集めたデータに対して分析を行い、傾向や異常などを発見。この傾向などを基に、実際のビジネス施策に落とし込む。このビジネスへの適用がデータ活用にあたる。

　続いて小林氏は、データマネジメントを実現するために利用できる3つのフレームワークを紹介した。これらはデータマネジメントの進捗と、分析基盤の構築における道標となるものであり、その1つ目が『DAMAホイール』だ。これはデータマネジメント協会が提唱しており、データマネジメントに必要な知識領域を10に分解し円の形に並べ、中心にデータガバナンスを据えたものだ。

　2つ目は『Peter Aiken's Framework』であり、DAMAホイールを下敷きによりわかりやすい形となったものだ。データ分析を1番上に位置付け、データ提供がその下にある。さらに下には、さまざまな場所からデータを収集・保管するように描かれており、それらの土台となるデータ品質や利便性向上、データガバナンスの実行が最下部に位置するなど、それぞれの関係性がわかりやすく表現されている。

　3つ目は「The Modern Data Stack」だ。データ分析基盤において、現代の環境にマッチするクラウドサービスやSaaSツール群、それらの組み合わせが列挙されているもので、データ活用領域の拡大によるトレンドの変化を示す、バズワードとして知られている。一例として紹介された英Snowplow社作成の『The modern data stack: a guide』には、データウェアハウスを中心に最新のサービス群が体系的にまとめられている。

分析基盤の成長フェーズに応じた課題に適宜対処する

　次に小林氏は、データ分析基盤の成長曲線に応じて3つのフェーズに分け、フェーズごとの課題にどう対応するかを説明した。最初のフェーズは、データ分析基盤がない状態から立ち上げる『0→1フェーズ』。続いて、立ち上げたデータ分析基盤が組織で使われ始める『1→10フェーズ』、さらに分析基盤が全社規模で多くの人に使われ拡張する『10→100フェーズ』がある。

　では、実際にprimeNumberで3つのフェーズがどのように進んだのか。0→1フェーズでは、6つ程のテーブル数でミニマムな分析要件から始めた。なお、このフェーズは早期に終了し、直ちに1→10フェーズが訪れることになる。0→1フェーズが成功すると、こうした分析がしたい、このデータを使いたいなどの新たな要望が増えるからだ。

　実際に1→10フェーズでは、テーブル数が900となりデータを集めるETLの本数も300程になっている。この規模ではすべてのテーブルを把握しきれず、ETLジョブも手作業では実行できない。そして10→100フェーズもすぐに訪れる。「指数関数的にテーブル数やETL数は増え、そのため1→10フェーズではそれに対応する準備をしなければなりません」と小林氏は説明する。

　また、10→100フェーズではデータ品質や民主化について考える。数千ものテーブルがあれば欠損データや品質の低いテーブルが散見されるためだ。もし、それらをそのまま意思決定に利用すれば、間違った判断を下しかねない。間違った意思決定を防ぐためには、データ品質を担保して多くの人がデータを使えるように適切に“民主化”することが求められる。

　こうした課題への対応策として0→1フェーズでは、データソースにAPI接続でデータを取得して統合化するという一連のフローを自動化。さらに、分析用データベースを用意してデータを蓄積することでユーザーがアクセスできるようにする。その上で、より分析基盤を活用、共有するためにデータの可視化にも取り組む。

　また、データの統合ではETLツールを適用できるという。これはデータをソースから取ってきて、統合する手段をツール化したもので、OSSやSaaSなどさまざまなものがある。ちなみに、小林氏が所属するprimeNumberが提供している『trocco』は、ETLツールとしても利用できるクラウドサービスだ。

　分析用のデータベースには、クラウド型のデータウェアハウスを小林氏は薦める。クラウドには分析用途に特化したものがあり、安価で高速な分析ができるからだ。その上で迅速に立ち上げられ、このフェーズで優先されるスピードの要求にも応えやすく、後のフェーズで求められる拡張性も備えている。

　加えて、もう1つ必要な技術スタックが、BIツールだ。これはデータを可視化することに特化したダッシュボードツールであり、グラフ表示やデータウェアハウスへの接続機能などが提供される。

　続いて1→10フェーズでは、徐々に複雑化してきた分析基盤をベストプラクティスに沿いながら効率的に管理して自動化を目指す。primeNumberでは、300に近いETLジョブを自動化してCI/CDの継続的なインテグレーション、デリバリーができる仕組みが必要になったという。「まさにソフトウェアエンジニアリングのベストプラクティスを用いて解決すべき課題です」と小林氏。定期実行されるETLやSQLジョブ管理を効率化し、肥大化してきたデータウェアハウスのテーブルを整理して品質を改善する。さらに、蓄積されているデータをビジネス現場に返す必要もあり、これは重要なポイントだと指摘する。

　これらを解決するための技術スタックには、多くのジョブを効率的に自動化するワークフローツールを薦める。ジョブの順番を管理し、エラーがあった際のリトライなどのフローを簡単に構築できるなど、分析基盤を作る際には必須のツールだ。また、データモデリングツールも必要だ。これには、データモデリングの設計とそれをどのように実装するか、2つの観点を考える必要がある。数が増えたテーブルをどのようにまとめて整理するか設計し、それを実現するためのツールを選定することになる。

　さらに、ビジネス現場に価値を返すためには「リバースETLという概念があります」と小林氏。これを使えば、分析基盤で分析した結果を、たとえばCRMツールや広告配信プラットフォームに戻すことで、レコメンデーションやターゲティング広告の配信などに応用できる。

　10→100のフェーズでは、ユーザーが増加する中で、データの品質の担保と民主化に対処しなければならない。欲しいデータはどこにあるのか、データを使おうとした際にどのようなことに注意しなければいけないのか、それらがわかるようにする。誤ったデータが存在していないか、データ分析基盤上のデータをモニタリングして確認。データ分析基盤をどう利用するかの利用方法を明確にし、それをユーザーに浸透させる必要もある。

　また、データを効率的に探し意味を理解するためには、データカタログが有効だ。データカタログではデータの意味などを蓄積し、溜まったデータの意味を分析の際に参照することで該当データを理解できるようにする。さらに、データ品質の改善には、データ品質モニタリング機能があり、ETLなどのデータ処理のジョブや溜まったデータそのものに対してテストケースを記述できる。たとえば、値がこの範囲に収まっていなければいけないなどと定義しモニタリングすることで、データ分析基盤全体の品質を管理していく。なお、データ分析基盤の利用方法を明文化し明確にするためには、ドキュメンテーションツールを使った方法が一般的だ。

　小林氏は「troccoでは、近々データ品質モニタリング機能をリリース予定です。まさに、データマネジメント全般を包括するサービスに成長しています」と述べる。

各フェーズの課題をクイックに解消し、健全なデータ分析基盤を拡張していくために

　本人確認サービス事業を展開するTRUSTDOCKでは、データ分析基盤の構築スピードを最大化するために、SaaS型ETLツールとしてtroccoを採用した。

　また、atama plusでは、データ分析基盤は持っていたが利用度が低く、ユーザーがそれぞれアドホックにデータを取得して分析を行っていたという。分析の際にデータがどこにあるかがわからず、データの定義もはっきりしない。データ管理者に都度尋ねるなど手間も工数もかかっていた。

　そこで、データ分析基盤の民主化を目指してtroccoを採用。データカタログを整備した結果、データ分析基盤の利用者数が5倍に爆増した事例もあると小林氏は自信を見せる。

　最後に小林氏は、攻めのデータ活用と守りのデータマネジメントを同時にやる必要があり、データマネジメントは専門性が高い領域で成長フェーズに応じて課題が異なり、適宜対処する必要があると改めて指摘する。そしてデータマネジメントの課題に対処するための技術スタックにはさまざまなものがあり、自分たちでそれらを選んで仕組みを作り上げることは簡単ではない。このとき、データマネジメントを総合的に支援するtroccoがあることを憶えておいて欲しいと言うのだった。