データ戦略の礎となるローデータ
はじめにデータ戦略を定義する必要があります。今回の連載においてデータ戦略とは、「蓄積されたデータの分析に加え、データを起点として実際の業務へつながる次のアクションを検討し、実行して評価する」までを含みます。
このデータ戦略を、一事業部門だけでなく、全社の事業部門間、組織間を横断して見渡すことができるIT部門が解決案を提案することで、個別最適と全体最適の双方からアプローチできるようになるため、企業においてビジネスに活かせるより高いレベルでのデータ戦略を作り上げることが可能になります。
データ戦略はその基礎となるデータを徹底的に整理することから始まります。社内で使われている発生源が不明な既存のデータ(たとえば上司へ報告することを目的として集計されている数字など)は、本来持つべきデータの価値が薄まってしまっている場合があるため注意が必要です。
新たなデータを蓄積する際には、様々なバイアスがかからぬよう、発生源を明らかにできるデータ(以降、ローデータと表現します)を蓄積するのが良いと思います。ローデータを丁寧に蓄積して行くことで、分析した結果を正しく捉えることができます。また同じ内容のように見えながらも微妙に定義が異なるようなデータが事業部門毎に散在する事態を避けることも可能になります。
ローデータを扱う際にノイズ(正しくないデータ)が含まれることがしばしばあります。簡単に書きましたがノイズを特定するためには、データサイエンティストの力を借りる必要があります。蓄積されたデータを分析する前に、データのクレンジングを行い、信憑性のあるデータを抽出し、活用する必要があります。
データを蓄積するタイミングで、そのローデータが本当に正しいものかどうかをチェックできる体制(運用面も含めて考慮が必要)を確立することが望ましいと考えています。誤ったインプットは、誤ったアウトプットになってしまうためです。
オープンハウスでは、ローデータはそのままクラウド上のデータソースに一元的に格納し、データを分析する際にデータサイエンティストがこのローデータのクレンジングを担当しています。全社のシステムおよびアプリケーション群をクラウド環境、モバイル環境へ移行したことにより、業務を通して入力されたデータ、担当者の導線データがすべてファクトとしてクラウド上に一元的に格納される仕組みを構築しています。
クラウドストレージへアップロードされたローデータは、削除することなく継続して蓄積され、これらのローデータはクレンジングを経て、データ分析で活用され続けています。