Visually-Situated Natural Language Understanding with Contrastive Reading Model and Frozen Large Language Models

要約

大規模言語モデル (LLM) の最近の進歩により、そのアプリケーションを視覚領域に拡張することを目的とした研究が急増しています。
これらのモデルは、抽象的な画像キャプションを生成し、自然な会話を促進する点では有望ですが、テキストの多い画像でのパフォーマンスにはまだ改善の必要があります。
この論文では、既存の手法では見落とされがちな複雑な詳細を捕捉することで、LLM の言語イメージ理解能力を強化するように設計された新しいニューラル アーキテクチャである Contrastive Reading Model (Cream) を紹介します。
Cream は、視覚エンコーダと補助エンコーダを組み合わせ、コントラスト特徴位置合わせ技術によって強化され、画像内の視覚的に位置するコンテキストにおける言語情報のより効果的な理解を実現します。
私たちのアプローチは視覚と言語理解の間のギャップを埋め、より洗練されたドキュメント インテリジェンス アシスタントの開発への道を開きます。
推論能力を必要とするさまざまな視覚的状況に応じた言語理解タスクにわたる厳密な評価を通じて、Cream の説得力のあるパフォーマンスを実証し、視覚的文書理解の分野における著名なモデルとしての地位を確立しました。
コードベースと新しく生成されたデータセットは https://github.com/naver-ai/cream で提供されています。

要約(オリジナル)

Recent advances in Large Language Models (LLMs) have stimulated a surge of research aimed at extending their applications to the visual domain. While these models exhibit promise in generating abstract image captions and facilitating natural conversations, their performance on text-rich images still requires improvement. In this paper, we introduce Contrastive Reading Model (Cream), a novel neural architecture designed to enhance the language-image understanding capability of LLMs by capturing intricate details that are often overlooked in existing methods. Cream combines vision and auxiliary encoders, fortified by a contrastive feature alignment technique, to achieve a more effective comprehension of language information in visually situated contexts within the images. Our approach bridges the gap between vision and language understanding, paving the way for the development of more sophisticated Document Intelligence Assistants. Through rigorous evaluations across diverse visually-situated language understanding tasks that demand reasoning capabilities, we demonstrate the compelling performance of Cream, positioning it as a prominent model in the field of visual document understanding. We provide our codebase and newly-generated datasets at https://github.com/naver-ai/cream .

arxiv情報

著者 Geewook Kim,Hodong Lee,Daehee Kim,Haeji Jung,Sanghee Park,Yoonsik Kim,Sangdoo Yun,Taeho Kil,Bado Lee,Seunghyun Park
発行日 2023-10-26 12:51:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク