取引記録の利用と個人情報保護
大規模データベースからの知識発掘技術として、データマイニングはこれまで発展を続け、さまざまな分野で応用されています。例えば、ポイントカードを導入している企業のPOSシステムには、個人識別子、取引識別子(店舗、日時)、購入品目、金額などが記録され、このような記録から「ビールを購入した顧客はその後、頻繁にウイスキーを購入する」といったパターンを発見できます。こうしたパターンは「時系列パターン」と呼ばれ、仕入戦略や販売戦略を考えるうえで重要視されています。
これまで、データマイニングでは発掘される事実、あるいはその使用目的がプライバシーの侵害に当たらなければ、分析対象データに個人情報が含まれていることはあまり問題にされていませんでした。
しかし、それが個人の特定につながらないとしても、個々人がどの日時に何を買ったのかという詳細な記録が、第三者に分析されることに抵抗を感じる人は少なくありません。また、日本では2005年4月に個人情報保護法が施行され、近年、個人情報保護の立場から個人識別子を含むデータや、個人単位での細かい取引記録などの利用には細心の注意が必要となりました。
それに伴い、元データに含まれている個人情報を保護したうえでのデータマイニング技術に注目が集まっています。そのような研究事例として、マイニング結果に影響しないように元データに改変を加える技術、あるいは、元データから個人特定につながり得る情報を、分析結果への影響がなるべく少なくなるように一般化あるいは削除する技術があります。
分析対象は集計データに移行
しかし、そうした配慮を行なっても、現時点では個人単位の情報が第三者に分析されることに抵抗感を持つ企業や個人は多いようです。企業から筆者へ分析対象として提供されるデータも、個人情報保護法の施行を境に個人単位ではなく、集計済みのグループ単位のデータに変わってきました。
集計済みデータならば、個人単位の行動記録を特定することはできないため、それを分析/利用することへの抵抗感も少なくなります。また、データを第三者に分析させる場合に、このような集計データの形態で提供することで、倫理的な問題も、情報漏えいによって顧客に被害が及ぶリスクもなくなります。
一方で、相関ルールや時系列パターンなどを見つけ出すデータマイニング機能は、個人単位の取引記録から頻出パターンを枚挙する必要があるため、集計後のデータにはうまく適用できません。そのため、近年の個人情報保護の動きは、データの有効利用を目指すデータマイニング技術者にとって大きな足かせとなっています。