Shoeisha Technology Media

EnterpriseZine(エンタープライズジン)

EnterpriseZine(エンタープライズジン)

テーマ別に探す

個人情報保護法施行下のデータマイニング

個人情報保護法は、さまざまな分野に影響を及ぼしているようだ。だが、データマイニングにまでその影響が及んでいるとは知らなかった。しかし、本稿を読んでみればそれも納得である。今回は、個人情報に満ち溢れているスーパーマーケットのPOSデータを“集計”することで個人単位の購買履歴を特定することはできないが、現実世界(すなわち元データ)で何が起こっていたのかを高い信頼度で“推定”できる、新しい時系列パターンのマイニング技術を紹介してもらう。この分析手法は、日本データベース学会ビジネスインテリジェンス研究グループも共催団体の1つである「平成16年度データ解析コンペティション」で審査員特別賞を受賞した。

DB Magazine 2007年3月号より転載)

取引記録の利用と個人情報保護

 大規模データベースからの知識発掘技術として、データマイニングはこれまで発展を続け、さまざまな分野で応用されています。例えば、ポイントカードを導入している企業のPOSシステムには、個人識別子、取引識別子(店舗、日時)、購入品目、金額などが記録され、このような記録から「ビールを購入した顧客はその後、頻繁にウイスキーを購入する」といったパターンを発見できます。こうしたパターンは「時系列パターン」と呼ばれ、仕入戦略や販売戦略を考えるうえで重要視されています。

 これまで、データマイニングでは発掘される事実、あるいはその使用目的がプライバシーの侵害に当たらなければ、分析対象データに個人情報が含まれていることはあまり問題にされていませんでした。

 しかし、それが個人の特定につながらないとしても、個々人がどの日時に何を買ったのかという詳細な記録が、第三者に分析されることに抵抗を感じる人は少なくありません。また、日本では2005年4月に個人情報保護法が施行され、近年、個人情報保護の立場から個人識別子を含むデータや、個人単位での細かい取引記録などの利用には細心の注意が必要となりました。

 それに伴い、元データに含まれている個人情報を保護したうえでのデータマイニング技術に注目が集まっています。そのような研究事例として、マイニング結果に影響しないように元データに改変を加える技術、あるいは、元データから個人特定につながり得る情報を、分析結果への影響がなるべく少なくなるように一般化あるいは削除する技術があります。

分析対象は集計データに移行

 しかし、そうした配慮を行なっても、現時点では個人単位の情報が第三者に分析されることに抵抗感を持つ企業や個人は多いようです。企業から筆者へ分析対象として提供されるデータも、個人情報保護法の施行を境に個人単位ではなく、集計済みのグループ単位のデータに変わってきました。

 集計済みデータならば、個人単位の行動記録を特定することはできないため、それを分析/利用することへの抵抗感も少なくなります。また、データを第三者に分析させる場合に、このような集計データの形態で提供することで、倫理的な問題も、情報漏えいによって顧客に被害が及ぶリスクもなくなります。

 一方で、相関ルールや時系列パターンなどを見つけ出すデータマイニング機能は、個人単位の取引記録から頻出パターンを枚挙する必要があるため、集計後のデータにはうまく適用できません。そのため、近年の個人情報保護の動きは、データの有効利用を目指すデータマイニング技術者にとって大きな足かせとなっています。

※この続きは、会員の方のみお読みいただけます(登録無料)。


※この続きは、会員の方のみお読みいただけます(登録無料)。


著者プロフィール

バックナンバー

連載:日本のデータベース研究最前線

もっと読む

All contents copyright © 2007-2018 Shoeisha Co., Ltd. All rights reserved. ver.1.5