パーソナルデータにおける匿名性の担保
LayerXの研究開発組織であるLayerX Labsでは、本連載でも紹介してきた自社ソリューション「Anonify」を軸に、コンフィデンシャル・コンピューティングの社会実装に取り組んでいます。第1回で紹介した通り、コンフィデンシャル・コンピューティングがパブリッククラウドで利用しやすくなったことなどを背景に、我々が研究開発に取り組み始めた数年前と比べて普及が進んだように感じます。
また、コンフィデンシャル・コンピューティングと同様「データを秘匿化したまま処理する」技術である(暗号学的な手法を用いた)秘密計算についても、メディアで取り上げられる頻度が増えるなど、注目度が高まっているように思います。
しかしながら、コンフィデンシャル・コンピューティングや秘密計算はあくまで「要素技術」ですので、実際のビジネスやサービスにおいて本当に力を発揮させるためには、様々な工夫が必要となります。
たとえば、プライバシーや情報漏洩防止の観点で元データを秘匿化して何らかの処理を行う場合、その結果のデータ形式や出力ロジックをどうするかという論点があります。
そもそも、パーソナルデータの匿名性を担保すること自体が、長年研究されている奥が深い問題です。氏名やIDなどの識別子を削除することにより、一見すると個人の識別性がないようなデータに加工した場合でも、実は他の情報と照合することで個人を識別することが可能だというケースはよくあります。
Netflix社がかつて行った、推薦アルゴリズムのコンテストが有名な事例です。同社が公開したデータセットには1999年から2005年における、約48万人もの実ユーザーによる映画のレーティングの値が含まれていました。匿名化に関する研究で著名なArvind Narayananらの研究[※1]では、特定の個人の複数の映画に対するレイティング値と、レイティングをした日付という前提知識をどの程度精緻に持っていれば、どの程度の識別が可能かという分析がされています。
これらの前提知識を使って識別を試みることができるのは、対象の個人の知人や友人だけとも限りません。同研究では、公開情報であるIMDbという別のサービスによる映画のレイティングを使って、同一のユーザーを高い確率で推定できたという結果も出ています。
そのため、このようなパーソナルデータにおける特定個人の識別を防ぐため、「k-匿名化」[※2]をはじめとする匿名化手法が古くから研究されています。
[※1] Arvind Narayanan and Vitaly Shmatikov:Robust De-anonymization of Large Datasets (PDF),(2008).
[※2] 「k-匿名性とはデータの匿名性を評価する指標で、『同じような属性の人が、必ずk人以上いる状態』のこと」(国立情報学研究所、『NII Today 第64号』、「匿名化技術の最新動向とその課題」より)