一見精度が高いモデルの落とし穴
TYPE IIの不正を対象にしたデータ分析を行うと、非常に検知精度の良いモデルが出来上がる場合があります。しかし、その精度が極端に高い場合は注意が必要です。TYPE IIで分析対象とする不正データは、自分たちがこれまで見つけることができた不正、つまり既に知っているパターンの手口による不正行為がほとんどです。このようなデータを対象に分析した結果得られたモデルは、既存の不正調査の業務フローをただなぞっているだけで、不正行為の本質的な特徴を捉えているわけではない場合があります。
また、TYPE IIに分類される不正の検知モデルを構築する場合は、データの上では不正のフラグが立っていないものの中に、実はまだ見つかっていない不正が多数存在しているという前提を置くべきです。練習時のデータにオーバーフィットしただけのモデルは、練習には強くても、本番には弱いため役には立ちません。システムの本番稼動が始まると、モデル構築時は精度が良かったのに、なぜ検知できない不正が後から発覚するのか…?といった問題が起きるリスクがあるのです。
見誤りを防ぐために
このような見誤りを防ぐために、TYPE IIの不正分析では、以下の①~③などを考慮しながら不正検知モデルを構築します。
- 不正検知モデルの採用変数が現行の不正調査業務の観点のみに偏っていないかどうか検証する。
- 現状で不正データとして扱われていないデータでも、不正検知モデルで高リスクと判断されたデータは未検知の不正でないかどうか検証する。
- クラスター分析などの教師無し学習(不正かどうかは問わずに属性や取引振りのデータが類似したグループを分類する方法)を行い、少数のデータしか含まれないクラスターに未検知の不正が含まれていないか検証する。
これらを考慮しながら、モデルのチューニングとブラッシュアップを繰り返して最終的な不正検知モデルを作り上げていきます。
TYPE IIの不正対策において、これまで自分たちが見つけることができたパターンの不正データのみを分析した結果から得られた不正検知モデルは、業務効率化という観点では一定の効果を得ることができますが、これまで人の目では見抜けなかった不正まで網羅的に検知することはできません。データ分析者はモデル構築時の見かけの精度のみを追い求めるのではなく、不正の手口の特徴など、データの前提となっている条件を常に考慮して分析を行う必要があるのです。
次回は、FinTechにおける不正検知の将来像について解説します。
参照1: 「クレジットカード不正使用被害の集計結果について」2017年3月
参照2: 「クレジットカードのショッピング枠の『現金化』の誘いに注意」