「レゴのようにAIモデルを組み合わせた」文法が異なる言語間でのリアルタイム翻訳
ドイツに本社を置くDeepL。2017年の創業以来、その翻訳精度の高さから個人のユーザーだけでなく、多くの企業でも採用されている。日本でも文書の英訳や多言語翻訳のニーズが高まる中、企業のグローバルコミュニケーションを支えるツールとなっていることは確かだ。
そんなDeepLが最近発表した新機能は、「企業の多言語コミュニケーションに新たな変革をもたらす可能性を秘めている」とエンダーライン氏。それが、リアルタイム音声翻訳機能「DeepL Voice」だ。ビデオ会議や対面のコミュニケーションにおいて、話者の音声をリアルタイムで他言語に翻訳する。これにより、異なる言語を話す相手との直接的なコミュニケーションが可能になるという。
2025年に入ってすぐには、API機能の強化も発表された。最も大きな強化は、業務アプリケーションやワークフローなどに、DeepLの翻訳機能を直接統合できるようになったことだろう。日常業務の中で大量の文書を自動処理するユーザーや、リアルタイムの翻訳処理を必要とするシステムにとって重要な機能となる。
エンダーライン氏は、DeepLのCTOとして全製品の技術戦略と実装を統括する。同氏は、高精度な音声翻訳機能のリリースに至るまでには、「リアルタイム性(スピード)」と「品質」の両立という大きな課題があったと話す。
「リアルタイムでの多言語翻訳においては、特に『言語ごとに文法構造が異なる』という大きな課題がありました。たとえば、文法の勝手が大きく異なる日本語とドイツ語による会話を翻訳するとしましょう。これまでのDeepLのような“非リアルタイム”でのテキスト翻訳なら、中間言語として英語を挟む方法が比較的うまく機能するかもしれません。しかし、会話の最中にAIがリアルタイムで適切に返答する場合には、複雑な課題を乗り越えなければならないのです」(エンダーライン氏)

セバスチャン・エンダーライン氏
リアルタイム翻訳では、人が話している途中、すなわち文章の途中でも翻訳を開始し、文法構造の異なる言語間でも自然な形で出力する必要がある。主語、目的語、動詞などの語順が異なる言語同士の会話で、これを実現するのは簡単ではない。DeepLはこの問題への回答として、複数のAIモデルを巧みに組み合わせるアプローチを採用している。
「複数のAIモデルを、まるでレゴのように組み立て、出力、スピード、品質のすべてを最適化しています。重要な点は、たとえばドイツ語と日本語の間で直接モデルを活用するなど、できるだけ多くの文脈情報を活用することです。加えて、言語認識などの機能も必要です。現在もユーザーにとってより効率的な体験を提供できるよう、常に新しい機能を進化させています」(エンダーライン氏)
具体的には、高精度な音声認識モデルを用いて文字起こしを行い、それをDeepL独自の翻訳モデルと組み合わせる形をとっている。文の断片をリアルタイムで処理し、品質を維持しながら迅速にフィードバックを返す能力が特長だと同氏は語る。
言語のサポートには2つの側面があるとエンダーライン氏。1つ目は「音声認識用」の言語、2つ目は「翻訳出力用」の言語だ。今後も双方で継続的にサポートの拡大を進めていくという。2025年2月時点では、DeepL Voiceの音声入力は英語、ドイツ語、日本語、韓国語、スウェーデン語、オランダ語、フランス語、トルコ語、ポーランド語、ポルトガル語、ロシア語、スペイン語、イタリア語の13言語に対応しているとのことだ。なお、翻訳出力に関しては、DeepLがサポートするすべての言語に対応済みだ。