データガバナンスを支える技術
川上氏は、データガバナンスは「仕組みを作ったら終わり」ではなく、PDCAを回していくことが重要であるとした。PDCAを回していくことで、主にルールとポリシーを最適化していく。そのすべてのフェーズに対応するのが、「SAS Data Management」製品群である。川上氏は「データガバナンスを支える技術」として、この中から「データ品質」「データプロファイリング」「ビジネス用語管理」の3つについて紹介した。
データ品質においては、ツールを活用することで組織内に存在するデータを可視化し、データの検証やパターン分析を実施できる。「データプロファイリング」では、ツールに標準で搭載されているプロセスの組み合わせにより、データのクレンジングが行える。「ビジネス用語管理」では、ツールによりビジネスメタデータを定義、分類が可能。クレジットカード番号などの項目をひも付け、項目やテーブルの関連性を自動的に表示される。ビジネス用語の辞書を作ることでデータの活用を促進し、トレーサビリティ・ガバナンスを担保できる。
続いて川上氏は、「AI Driven Data Management(AI技術を活用したデータマネジメントの効率化)」を紹介した。これは、リコメンデーションや異常検知の手法を使ってデータマネジメントを効率化する取り組みとなる。その背景には、企業が扱うデータはかつてのビッグデータに匹敵する量になっている状況がある。目視による運用を減らして、自動化、効率化を促進させるためには、AIが欠かせないものとなっている。
その具体的な技術として、まずデータ分類の効率化を挙げた。これは、データソースからデータを読み込む際に、その値に適したタグ付けを行うというもの。これにより膨大なデータの分類を効率的に行える。また、検討中のケースも含めると、たとえばデータが個人情報だった場合に適切な方法でマスキングまで自動的に行ったり、ビジネスメタデータを自動的にひも付けしたりといったことが可能になる。また、データのプロファイリングにより、次に必要なアクションをリコメンデーションしてくれる機能も計画している。たとえば、都道府県による分類ではデータ量が多すぎてしまうので、市町村で分類したらどうか、とデータ利用者に対して次に取るべきアクションを提案する。
一方で、AIで利用するモデルは、一時間の経過に従って、精度が低下していく傾向にある。これは実はよくあることで、データの傾向が変わっていくと効果が出にくくなってしまう。そのためには定期的なモデルの再学習、再適用が必要になるが、SASの場合は実データを使ったモデルの再学習を繰り返し、常にモデルを最適化する仕組みも今後、搭載していく。。
データガバナンスの3つのポイント
川上氏はまとめとして、まず「データガバナンスには組織全体での取り組みが必須、小さな成功体験も重要」を挙げた。組織に所属するすべてのメンバーが、データガバナンスのポリシーをきちんと理解し、組織全体で設定した目標に向かって推進していくことがとても重要。取り組みには、トップダウンによるスピード感も大事であるが、小さな成功体験をボトムアップで積み上げていき方針を意識づけることも有効であるとした。
次に「データガバナンスで効果を得るには、活用まで見据えたプラットフォームの選択が重要」を挙げた。データガバナンスできちんと効果を得るには、ビジネス要件とのひも付けを明確にし、PDCAを円滑に回すことも必要。また、ガバナンスによって整理されたデータを使って価値や利益を生み出すには、データの管理だけでなく、活用まで見据えたステップをシームレスに実現できるプラットフォームを選択することも重要になる。
最後に「SASはAIのリーディングカンパニーとして、AI Driven Data Managementにチャレンジ」を挙げた。SASはデータガバナンスをはじめとして、分析に必要な機能をすべてプラットフォームとして提供をしている。さらに長年にわたって培ってきたAI技術を活用して、DX時代のデータ活用にチャレンジしていくとして、セッションを締めくくった。