日本電信電話(NTT)は、大規模言語モデル(LLM)によって文書を視覚情報も含めて理解する視覚読解技術を実現した。なお、この成果はNTT版大規模言語モデル「tsuzumi」のアダプタ技術として採用・導入されているという。
NTTでは、LLMを始めとする現在のAIが文書中のテキスト情報しか理解できないという問題に対して、ヒトの情報理解と同様に、文書を視覚情報から理解する技術として、下図で示す「視覚読解技術」を提唱。同技術の実現を目指して研究を進め、LLMの推論能力を活用した視覚読解技術を開発したという。
同研究では、文書画像をLLMの表現に変換可能な新たなアダプタ技術の開発および、多様な視覚読解タスクを対象とした指示遂行データセットの構築を行ったとのこと。これにより、LLMが文書の内容を視覚と言語を融合して理解し、任意のタスクを追加学習なしで遂行できるという。
NTTは今後、同技術が視覚表現された文書を基に質問応答を行う技術やWeb検索など産業上重要なサービスの発展に貢献すると期待しているとのこと。作業自動化をはじめ、ヒトと協働し、価値を生み出すAIの実現に向けて技術確立を目指すとしている。
【関連記事】
・NTT、富士通らと受託開発ソフトウェア製品のCO2排出量算定ルールを策定
・ブリヂストンとNTT、3つのテーマで共創 デジタルツイン・サステナビリティなどで取り組み開始
・NTT、IOWN技術によりAI分析の遅延時間を最大60%削減 NVIDIAや富士通らが協力