VARGPT: Unified Understanding and Generation in a Visual Autoregressive Multimodal Large Language Model

要約

単一の自己回帰フレームワーク内で視覚的な理解と生成を統合する、新しいマルチモーダル大規模言語モデル (MLLM) である VARGPT を紹介します。
VARGPT は、視覚的な理解のための次のトークン予測パラダイムと、視覚的な自己回帰生成のための次のスケールの予測パラダイムを採用しています。
VARGPT は LLaVA アーキテクチャを革新的に拡張し、単一モデル フレームワーク内で混合モードの入力と出力をシームレスに対応しながら、MLLM 内で効率的なスケールごとの自己回帰ビジュアル生成を実現します。
当社の VARGPT は、事前トレーニング フェーズと 2 つの混合ビジュアル命令チューニング フェーズで構成される、特別に厳選されたデータセットに対して 3 段階の統合トレーニング プロセスを実行します。
統合されたトレーニング戦略は、視覚的特徴とテキスト的特徴の間の調整を達成し、理解と生成の両方に従う指導を強化し、視覚的生成の品質をそれぞれ向上させるように設計されています。
マルチモデル理解のための LLAVA ベースのアーキテクチャにもかかわらず、VARGPT は、視覚的な質問応答や推論タスクなど、さまざまな視覚中心のベンチマークにわたって LLaVA-1.5 を大幅に上回ります。
特に、VARGPT は、自己回帰ビジュアル生成および命令から画像への合成の機能を自然にサポートしており、視覚的な理解と生成タスクの両方において多用途性を示しています。
プロジェクトページは\url{https://vargpt-1.github.io/}にあります。

要約(オリジナル)

We present VARGPT, a novel multimodal large language model (MLLM) that unifies visual understanding and generation within a single autoregressive framework. VARGPT employs a next-token prediction paradigm for visual understanding and a next-scale prediction paradigm for visual autoregressive generation. VARGPT innovatively extends the LLaVA architecture, achieving efficient scale-wise autoregressive visual generation within MLLMs while seamlessly accommodating mixed-modal input and output within a single model framework. Our VARGPT undergoes a three-stage unified training process on specially curated datasets, comprising a pre-training phase and two mixed visual instruction-tuning phases. The unified training strategy are designed to achieve alignment between visual and textual features, enhance instruction following for both understanding and generation, and improve visual generation quality, respectively. Despite its LLAVA-based architecture for multimodel understanding, VARGPT significantly outperforms LLaVA-1.5 across various vision-centric benchmarks, such as visual question-answering and reasoning tasks. Notably, VARGPT naturally supports capabilities in autoregressive visual generation and instruction-to-image synthesis, showcasing its versatility in both visual understanding and generation tasks. Project page is at: \url{https://vargpt-1.github.io/}

arxiv情報

著者 Xianwei Zhuang,Yuxin Xie,Yufan Deng,Liming Liang,Jinghan Ru,Yuguo Yin,Yuexian Zou
発行日 2025-01-21 17:50:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク