コンピュータビジョン、自然言語処理に重点
Salesforce.comのチーフ・サイエンティストのリチャード・ソーチャー氏によれば、今後のAIについては3つの大きな分野がある。1つが大きなデータセットの利用だ。2つめがスマートな予測を立てるためのアルゴリズムで、3つめはより速いコンピュータのためのGPUやCPUの進化だ。
「データセットをスケールアップしてセキュリティを確保し、コンプライアンスにもあったデータを用意することになります。Salesforce Researchでは、どのような業界でもAIを使えるようにします。その際に重要になるのが、AIの倫理です。新たな価値を生み出しつつ、倫理を守ることも同時に行います」(ソーチャー氏)
Salesforceではコンピュータビジョン、自然言語処理の部分に力を入れている。全社では、Visual Descriptionという領域で、写真を言葉で理解する取り組みを行っている。たとえば小さな女の子が写っている写真を見て、それを写真の説明として言葉で表現するのだ。「5年前にはぼやけた写真を見ているようなものだったけれど、今は鮮明な写真を見ているのと同じように説明ができるようになりました。そのため、人が写真にタグ付けを行わなくても、分類できるようになりました」とソーチャー氏。この技術を応用することで、交通事故にあったクルマの損害を保険会社などが自動で検知することもできるようになる。
もう1つが企業が顧客とのコミュニケーションを取る際の方法となる、会話型のやり取りだ。会話にはコンテキストがあり、直感的な表現にもなる。これまでキーボードなどから情報を更新していたが、これからはそれを音声で行うようになる。音声入力は、キーボード入力よりも効率化できる。
とはいえ音声入力については、難しい面もある。たとえば、業種や職種により、同じ言葉でも違うものを指すことがあるからだ。もう1つは、必ずしもクリアな音声で入力できるとは限らないことだ。工事の現場などでは周囲の騒音があり、音声を十分に把握できないこともある。また、オフィス内などで音声入力しようとすると、その内容が周囲に聞こえてしまい機密を守るといった面では問題となることもある。
また人により異なるアクセントや、さまざまな声の質にも対応できなければならない。そのためにSalesforceでは研究を続けている。その1つが、ドメインに特化した会話をすることだ。標準化されたモデルで学習することで、さまざまなシナリオを学ぶことができる。その上で、音声の利用で重要な個人情報などが漏洩しないようにもする。音声認識の精度だけでなく、セキュリティと信頼性も音声の活用では重要になると考え研究が行われている。