日本電信電話(NTT)は、大規模言語モデル(LLM)によって文書を視覚情報も含めて理解する視覚読解技術を実現した。なお、この成果はNTT版大規模言語モデル「tsuzumi」のアダプタ技術として採用・導入されているという。
NTTでは、LLMを始めとする現在のAIが文書中のテキスト情報しか理解できないという問題に対して、ヒトの情報理解と同様に、文書を視覚情報から理解する技術として、下図で示す「視覚読解技術」を提唱。同技術の実現を目指して研究を進め、LLMの推論能力を活用した視覚読解技術を開発したという。

同研究では、文書画像をLLMの表現に変換可能な新たなアダプタ技術の開発および、多様な視覚読解タスクを対象とした指示遂行データセットの構築を行ったとのこと。これにより、LLMが文書の内容を視覚と言語を融合して理解し、任意のタスクを追加学習なしで遂行できるという。

NTTは今後、同技術が視覚表現された文書を基に質問応答を行う技術やWeb検索など産業上重要なサービスの発展に貢献すると期待しているとのこと。作業自動化をはじめ、ヒトと協働し、価値を生み出すAIの実現に向けて技術確立を目指すとしている。
【関連記事】
・NTT、富士通らと受託開発ソフトウェア製品のCO2排出量算定ルールを策定
・ブリヂストンとNTT、3つのテーマで共創 デジタルツイン・サステナビリティなどで取り組み開始
・NTT、IOWN技術によりAI分析の遅延時間を最大60%削減 NVIDIAや富士通らが協力
この記事は参考になりましたか?
- 関連リンク
- この記事の著者
-
EnterpriseZine編集部(エンタープライズジン ヘンシュウブ)
「EnterpriseZine」(エンタープライズジン)は、翔泳社が運営する企業のIT活用とビジネス成長を支援するITリーダー向け専門メディアです。データテクノロジー/情報セキュリティの最新動向を中心に、企業ITに関する多様な情報をお届けしています。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
この記事は参考になりましたか?
この記事をシェア