新規
会員登録

EnterpriseZineニュース

NTT、LLMによって文書を視覚情報から理解する技術を実現　「tsuzumi」のアダプタ技術に採用

EnterpriseZine編集部[著]

2024/04/12 19:40

通知

　日本電信電話（NTT）は、大規模言語モデル（LLM）によって文書を視覚情報も含めて理解する視覚読解技術を実現した。なお、この成果はNTT版大規模言語モデル「tsuzumi」のアダプタ技術として採用・導入されているという。

　NTTでは、LLMを始めとする現在のAIが文書中のテキスト情報しか理解できないという問題に対して、ヒトの情報理解と同様に、文書を視覚情報から理解する技術として、下図で示す「視覚読解技術」を提唱。同技術の実現を目指して研究を進め、LLMの推論能力を活用した視覚読解技術を開発したという。

クリックすると拡大します

　同研究では、文書画像をLLMの表現に変換可能な新たなアダプタ技術の開発および、多様な視覚読解タスクを対象とした指示遂行データセットの構築を行ったとのこと。これにより、LLMが文書の内容を視覚と言語を融合して理解し、任意のタスクを追加学習なしで遂行できるという。

クリックすると拡大します

　NTTは今後、同技術が視覚表現された文書を基に質問応答を行う技術やWeb検索など産業上重要なサービスの発展に貢献すると期待しているとのこと。作業自動化をはじめ、ヒトと協働し、価値を生み出すAIの実現に向けて技術確立を目指すとしている。

【関連記事】
・NTT、富士通らと受託開発ソフトウェア製品のCO2排出量算定ルールを策定
・ブリヂストンとNTT、3つのテーマで共創　デジタルツイン・サステナビリティなどで取り組み開始
・NTT、IOWN技術によりAI分析の遅延時間を最大60％削減　NVIDIAや富士通らが協力

この記事は参考になりましたか？

印刷用を表示

関連リンク: プレスリリース

この記事の著者: EnterpriseZine編集部（エンタープライズジンヘンシュウブ）

「EnterpriseZine」（エンタープライズジン）は、翔泳社が運営する企業のIT活用とビジネス成長を支援するITリーダー向け専門メディアです。データテクノロジー/情報セキュリティの最新動向を中心に、企業ITに関する多様な情報をお届けしています。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事

この記事は参考になりましたか？

この記事をシェア

通知

Job Board

AD

おすすめ

アクセスランキング

アクセスランキング

イベント

EnterpriseZine（エンタープライズジン）編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

新規会員登録無料のご案内

・全ての過去記事が閲覧できます
・会員限定メルマガを受信できます

メールバックナンバー

新規会員登録無料

アクセスランキング

アクセスランキング