連合学習(Federated Learning)とは何か?
Federated Learning(以降、連合学習)は機械学習の手法の1つ。宇都宮氏は「医薬品開発のように、プライバシー保護に配慮しなくてはならない分野で、安全に学習するニーズに対応するべく出てきた機械学習の仕組み」と解説する。通常、データ量が多いほど精度の高い結果が得られるが、研究機関や製薬会社が使いたいデータには、患者のプライバシーに関する情報など機密性の高いものが含まれる。データ管理者には自分たちの組織が保有する個人情報を適切に管理する義務がある。そのため、外部との共同利用などはもってのほかとされてきた。連合学習はこのジレンマを解決する手法として期待されている。
その仕組みは次のようなものだ。まず、中央にあるサーバーで訓練用の最初のモデルを作成し、ローカルに供給する。ローカルはそれぞれが自分たちのデータでモデルの訓練を行う。その後、個人情報のように共有してはいけないものを除く処理を行った後、抽出したパラメーター(実態は行列)だけを中央に集約し、共通モデルの精度を向上させる(図1)。
プライバシー保護のためには、学習データの前処理として、個人情報を除いて匿名化しモデルを作成することなどが求められる。モデルのパラメーターを外部に出すことに問題はないのか。この疑問に対し、「大量の学習データから特徴を抽出し、1つのモデルを作成しますが、モデルから学習データを(リバースエンジニアリングにより)復元することは非常に困難です」と宇都宮氏は説明する。パラメーターの中身は数値なので、数値をアップロードしても、元のデータはローカルに残ったままだ。個人情報が含まれているデータはローカルに残し、学習結果の骨子であるモデルのパラメーターだけを中央にアップロードするのが連合学習の仕組みである。
この仕組みを活用したユースケースとして有名なのが、10社以上のグローバル製薬会社が参加した欧州のコンソーシアムMELLODDY(MachinE Learning Ledger Orchestration for Drug DiscoverY)である。メガファーマと呼ばれるグローバルに事業を展開している製薬会社は、どこも新薬の研究開発に力を入れている。しかし、新薬を市場に出すまでには平均で13年、2700億円が相場と、膨大なコストを要する。AIの貢献できる余地は大きいが、できるだけ多くのデータを集めなければ、満足できる水準の成果は得られない。また、質の高いデータを集められたとしても、それには個人情報が紐づいていて、多様性に問題があることもしばしばだ。だからと言って、お互いのデータを持ち寄ることもできない。さらに、限られたリソースの範囲では連続的な検証が難しいという問題もある。益子氏は「プライバシー」「柔軟性」「スケーラビリティ」の3つの課題を指摘し、お互いに協力するメリットは理解していても、これらの障壁の高さから挑戦しようにもできずにいたことを示した。