人と人の出会いの情報をデータベース化する
Sansanのサービスは、名刺に記載されている個人情報をクラウド上でデータベース化するのではなく、「人と人の出会いをデータベース化し、そこから価値を生み出すものです」と述べるのは、Sansan株式会社 取締役 CISO/CSIRT 主管 オペレーション部 部長の常樂諭氏だ。
名刺交換は人と人の出会いの証し。この出会いの情報をデータベース化するために、名刺をカメラで撮影、あるいはスキャナで読み取ってデータ化する。確実にデータ化するために、Sansanでは「裏で人がデータ化しています」と常樂氏。この人手による入力の正確さがあるからこそ、サービスが評価され4,000社を超える企業に普及している。
国内でやり取りされる名刺は、1年間で10億枚にもなるそうだ。うちSansanとEightで扱っている数が1億枚ほど。「年間に1億枚の名刺をデータ化するのはかなり大変です」と常樂氏。もちろん取り込んだ名刺画像ではOCR(光学文字認識 Optical character recognition)技術も利用して効率化を図っている。
とはいえ、OCRの精度はあまり高くない。名刺デザインによっても異なるが、OCRで正確にデータ化できる割合は6~8割程度だという。「8割の精度があれば良さそうに思えますが、たとえば電話番号は数字1つ違っていても相手につながりません」と常樂氏は述べる。結果的にOCRは補助的に使い、最後は人手で確認する。それも名刺1枚につき必ず2人の人が携わることで、100%の精度が出るようにしている。
ここで難しいのが、人的リソースの管理だ。年間1億枚の名刺のデータ化には波がある。数の変動が20%にもなれば、それに合わせて人を確保するのはかなり大変だ。
機械学習技術を使って入力の自動化を目指す
人が入力する以上の精度でデータを入れる仕組みができないか――。Sansanにとってこれは大きな課題であり、そのためのチャレンジをすでに3年以上の時間をかけ行っている。その中で活用しようとしているのが、機械学習やAIの技術だ。
「名刺には一般的なレイアウトルールがあります。たとえば、左上にFAX番号が記載されることはありません。また『営』の文字の後には、多くの場合『業』が来るといったものもあります。単なるパターン認識ではなく、教師ありで機械学習していくべきものがたくさんあるのです」(常樂氏)
現在Sansanでは、99.9%以上の精度で自動入力できるよう、機械に学ばせているところだ。
「最終的には人の入力をやめて、機械に置き換えたいと考えています。それができれば、世界で初めての試みになるでしょう。そのためにより精度を上げる取り組みを続けています」(常樂氏)
自動化のためにはまだ壁がある。それを一気に越えるのではなく、壁を細分化し、細分化した壁を1つ1つ越えていくようにしている。着実に進化はしているが、まだ納得いくレベルには達していない。そこでこの自動入力をさらに進めるためにSansanが考えたのが「オープンイノベーション」の活用だった。自社研究員だけでなく、世の中の知見を広く集めるためだ。
そのために採った方法がオープンなコンテスト「人工知能は名刺をどこまで解読できるのか?!」だ。アイデアを提供したのは、かつてから協業関係にあるオプトだった。株式会社オプトホールディング データサイエンスラボ 副所長 事業開発室 室長の中林紀彦氏は、「名刺の細かい情報を画像認識だけで自動データ化するのは難しいものがあります。一般の画像認識技術は、画像を区別するのは得意ですが、中にどういう情報が含まれているかを取り出す技術はこれからです」と述べる。
画像からそれが人の顔か、猫の顔かを識別するようなものは、すでに高い精度で実現できる。「たとえば営業2課から営業1課に異動したといった情報は、人が目で見れば簡単ですが、画像認識で区別するのは難しいのです」と中林氏。
コンテストでは、細かく区切った名刺のピース画像が、氏名か会社名かといったことを分類するアルゴリズムが競われる。まずはこれを100%の精度にすることをSansanでは目指しており、その知見を広く募集するのだ。「これはデータ入力の最初のステップです。ここで間違えると、後の工程への影響がかなり大きくなってしまいます」と常樂氏。