ビッグデータを解析すれば大統領選挙の結果も変わるかもしれない?
公共の政策改善をする組織である「The Pew Charitable Trusts」にて、選挙に関する活動のDirectorを務めているDavid Becker氏は、4年ごとにある大統領選挙のたびに、投票するための長い列ができることを解消できないかと考えた。この長い列ができてしまう原因は、選挙人名簿の管理が上手くいっていないから。名簿に入っていなければ選挙に行っても投票できない。ところがこの選挙人名簿は自己申告制であり、記録の更新が大変なのだ。
転居した場合などに、複数の州をまたがってしまうと複数の州で登録されてしまうこともある。また、選挙人が亡くなっていても、自動的に削除されずに登録が残ることもある。
「そもそもこういったものを、きちんと管理する仕組みがありません。国民は、自分が引っ越しをしたら、選挙人名簿も自動的に更新されるだろうと思っているのです」(Becker氏)
また、この選挙人名簿の登録は、選挙直前まで増えることはない。そして、紙で申請されるものも少なくなく、選挙日間際に紙の申請がたくさんくるのだ。それを手で、データベースに入力しなければならない。これは、米国の大きな問題であり、2,400万の登録が古くて使えず、実際に120万人が選挙で投票できなかった事実もある。
これを解決すべく、専門家を集めて検討をした。長時間考え、これは技術的な問題なのではないかという結果に至る。そこで、IBMのフェローの1人でありデータサイエンティストでもあるJeff Jonas氏に相談した。
「データの問題というよりもコンテキストの問題であり、それをもっとよくしなければなりませんでした」とJonas氏は語る。同姓、同名の人がいて、その人が同じ人なのかどうかがわからない。そこで、自動車登録記録や運転免許証番号、さらには社会保障番号などと照らし合わせて、それらが一致すれば同じ人だろうと判断することになる。この作業自体は何10年も前から同じものであり、実際にそれを行うのに苦労しているのだ。
この人物を特定する作業は、コンテキストを蓄積していけば分かる。名前だけでは分からないが、それ以外のデータが集まれば分かるものだ。とはいえデータを集めたいが、集めれば個人情報の管理の問題も出てくる。そこでJonas氏は、個人の情報をハッシュ化して持つことで、人間の目には見えないようにした。つまり見えないようにしてから情報を照らし合わせ、それで人物の特定を可能にしたのだ。さらに、データは改竄されてはならないのでそれにも対処した。選挙では、改竄できないこともきわめて大事なポイントだ。あとは、データが集まれば集まるだけ、人を識別する精度はどんどん上がることになるという。
この仕組みを構築するのに、IBMのG2というテクノロジーを利用した。できあがったシステムはERIC(Electronic Registration Information Center)と呼ばれ、現在7つの先進的な州がこの仕組みを利用している。G2はIBM SPSSの中にすでに組み込まれている技術で、利用可能なものだ。
現在、このERICを使って、転居した人にも是非投票をと呼びかけている。そして、この仕組みを大統領選挙のときだけでなく、他の選挙の際にも使ってもらっている。すでにこれを使って、85万人の確認がなされ選挙人名簿に登録された。これは州にとってはかなりのメリットを生んでいる。亡くなった人も確実に識別できるようになった。まだ登録していない人への登録も働きかけており、結果的には登録者は30万人ほど増えている。これだけの登録を電子化できたことで、登録のためのコストも大幅に下げることができた。
「紙でやると1件の登録処理あたり83セントかかります、これがオンラインならば3セントで済むのです」(Becker氏)
この仕組みの実現は、7つの先進的な州が参加してくれなければ不可能であり、さらにIBMが手伝ってくれなければ実現できなかったとBecker氏は言うのだった。