要約
典型的な大規模なビジョン言語モデル(LVLMS)は、視覚的モダリティを学習プロセスに完全に組み込むことなく、テキストシーケンスにのみオートレーリング監督を適用します。
これにより、3つの重要な制限が生じます。(1)キャプションなしで画像を使用できないこと、(2)キャプションが重要な視覚的詳細を省略するリスク、および(3)特定のビジョン中心のコンテンツをテキストで適切に伝えることができないという課題。
その結果、現在のLVLMSは、しばしば視覚から言語へのアライメントを優先しながら、細粒の視覚情報を見下ろす可能性があります。
一部の以前の作品では、自動回復的な画像生成を調査していますが、画像の理解を高めるために自己回復的な視覚的監督を効果的に活用することは依然としてオープンな課題です。
このホワイトペーパーでは、統一された自己回帰フレームワーク内の視覚的およびテキストモダリティの共同学習を可能にする、自己回帰セマンティックビジュアル再構成(ASVR)を紹介します。
画像の生の視覚的外観を自動網目上再構築することは、マルチモーダルの理解を促進せず、さらにはマルチモーダルの理解を深める可能性さえあることを示します。
対照的に、画像のセマンティック表現を自動的に再構築すると、一貫して理解が向上します。
特に、モデルに入力として連続画像機能が与えられていても、離散セマンティックトークンを効果的に再構築し、幅広いマルチモーダル理解ベンチマークにわたって安定した一貫した改善をもたらすことができます。
私たちのアプローチは、さまざまなデータスケール(556K-2M)とLLMバッコンの種類にわたって大きなパフォーマンスの向上をもたらします。
具体的には、ASVRは、14のマルチモーダルベンチマークの平均スコアでLLAVA-1.5を5%改善します。
このコードは、https://github.com/alenjandrowang/asvrで入手できます。
要約(オリジナル)
Typical large vision-language models (LVLMs) apply autoregressive supervision solely to textual sequences, without fully incorporating the visual modality into the learning process. This results in three key limitations: (1) an inability to utilize images without accompanying captions, (2) the risk that captions omit critical visual details, and (3) the challenge that certain vision-centric content cannot be adequately conveyed through text. As a result, current LVLMs often prioritize vision-to-language alignment while potentially overlooking fine-grained visual information. While some prior works have explored autoregressive image generation, effectively leveraging autoregressive visual supervision to enhance image understanding remains an open challenge. In this paper, we introduce Autoregressive Semantic Visual Reconstruction (ASVR), which enables joint learning of visual and textual modalities within a unified autoregressive framework. We show that autoregressively reconstructing the raw visual appearance of images does not enhance and may even impair multimodal understanding. In contrast, autoregressively reconstructing the semantic representation of images consistently improves comprehension. Notably, we find that even when models are given continuous image features as input, they can effectively reconstruct discrete semantic tokens, resulting in stable and consistent improvements across a wide range of multimodal understanding benchmarks. Our approach delivers significant performance gains across varying data scales (556k-2M) and types of LLM bacbones. Specifically, ASVR improves LLaVA-1.5 by 5% in average scores across 14 multimodal benchmarks. The code is available at https://github.com/AlenjandroWang/ASVR.
arxiv情報
著者 | Dianyi Wang,Wei Song,Yikun Wang,Siyuan Wang,Kaicheng Yu,Zhongyu Wei,Jiaqi Wang |
発行日 | 2025-06-10 17:57:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google