データドリブン経営を実現するカギは「データの質」
「データドリブン経営」は、もはや珍しい言葉ではない。とはいえ、経営者が自信を持って「取り組めている」と言える企業はまだ少ないだろう。国内企業の多くが中期経営計画などに「データを活用したDXの取り組み」や「データに基づく経営」などの言葉は取り入れているが、その成果には相当なばらつきが見られる。
一方、データウェアハウスを構築し、BIツールでデータの見える化を実現している企業もあれば、データレイクを構築し、セルフサービスBIを組み合わせてビッグデータ活用やデータの民主化に取り組む企業もある。ここ数年、これらの動きが進む中、新たに問題として浮かび上がってくるのが「データの質」だ。これまでは、データがサイロ化したため欲しいデータが手に入らず、やりたい分析を思うように実現できないことが課題だった。データウェアハウスやデータレイクなどのデータ活用基盤である程度解決できるが、それらに蓄積するデータはIT部門の担当者がかなり手間をかけて集めているのが実情だ。そのためIT部門はかなり疲弊しており、将来的に人手不足が予測される中、この状況を解消できなければ真に効果を発揮するデータドリブン経営はままならない。
様々なデータを集めたデータレイクのようなものはあるが、顧客に関するデータは営業担当者などがExcelなどのフォームに入力していて、それをIT担当者が集約しデータを集めている場合も少なくない。この方法では、ビッグデータ活用においてデータに求められるボリュームや鮮度、データの正確性などの面に不安が出る。Excelは慣れたツールで誰でも使えることが利点だが、データ収集作業が極めて属人化されやすいことが大きな問題だ。
また、IT部門の担当者が業務システムなどからCSV形式などでデータを抽出し、それを手作業で分析用データベースにロードするようなケースもある。この方法であればボリュームのあるデータの取得も問題なく実行できるだろう。人手を多く介さないので、データの正確性も向上する。とはいえ、担当者が作業するので属人性は変わらず、複雑なデータ処理も難しくなってしまう。
柔軟なアプリケーション間データ連携が可能なEAIツール(Enterprise Application Integration)を用いて、ETLの仕組みを構築する方法もある。このやり方は、データ鮮度を向上させ属人化の懸念もなくすことができるが、多様なデータソースに対応したい場合はAPI連携コネクタの開発作業が発生する。また大量のデータを扱いたい場合、効率化のために差分データを取得する仕組みを作る必要もあるが、EAIツールの導入・ランニングコストは高い状況だ。
コストを考えると、BIツールにデータソースへアクセスするコネクタがあり、それが活用できれば比較的安価にデータパイプラインが実現できるかもしれない。とはいえこの方法も、膨大なデータを扱うにはEAIツールと同様差分を取り込む仕組みの構築などが必要となる。データソースに対応するコネクタがなければ、アクセスする仕組みをAPIを用いてコードを書き構築するか、コネクタを外部から調達しなければならないのだ。
80%の米国企業が使っているツール、日本の利用率は25%?
データドリブン経営で先行する米国では、8割近くの企業がデータレイクなどにデータを集めるためにデータパイプライン用ツールを用いて効率化を図っているという。一方日本では「データ収集にツールを利用している企業は25%程度しかなく、さらに65%の企業が今後もツールを使うつもりがないと回答しています」と指摘するのは、CData Software Japan 代表社員 職務執行者の疋田圭介氏だ。日本の多くの企業では、データウェアハウスやデータレイクを構築しても、データ収集は人に大きく依存しているのが現状だ。
実際、ツールを使わずスクリプトを記述して各データソースのシステムからCSVをエクスポートし、分析用データベースにロードするバッチ処理を行っているような企業は多い。長年この方法で運用しているならば、かなり複雑なバッチジョブが動いているだろう。人がスクリプトを書けばツールコストは発生しないが、その分属人性がかなり高くなる。
上記のような運用を行っている企業には、ソースのレガシーシステムにも精通し、長年にわたりスクリプトのメンテナンスを担当してきたベテランエンジニアがいるだろう。その人が転職などでいなくなれば、データパイプラインの仕組みはブラックボックス化しかねない。システム環境の変化や業務部門の要求に応じて適宜修正を加えてきた「人力データパイプライン」では、マニュアルや詳細な仕様が分かるドキュメントもなく、もはや誰も手を付けられない。そんな状況は容易に想像される。