LaViDa: A Large Diffusion Language Model for Multimodal Understanding

要約

最新のビジョン言語モデル(VLM)は、視覚的な推論を必要とする幅広いタスクを解決できます。
実際のシナリオでは、VLMSの望ましいプロパティには、高速推論と制御可能な生成が含まれます(たとえば、出力を制約して目的の形式に接着します)。
ただし、Llavaのような既存の自己回帰(AR)VLMは、これらの側面で苦労しています。
離散拡散モデル(DMS)は、有望な代替手段を提供し、テキスト侵入を通じて制御可能な生成のためのより速い推論と双方向コンテキストのために並列デコードを可能にします。
言語のみの設定では効果的ですが、DMSのマルチモーダルタスクの可能性は露出度が低くなっています。
DMS上に構築されたVLMSファミリーであるLavidaを紹介します。
DMSにVisionエンコーダーを装備することでLavidaを構築し、マルチモーダル命令のために組み合わせた部品を共同で微調整します。
遭遇する課題に対処するために、ラビダには、効果的なトレーニングのための相補的マスキング、効率的な推論のためのプレフィックスKVキャッシュ、高品質のサンプリングのためのタイムステップシフトなどの新しい技術が組み込まれています。
実験では、LavidaがMMMUなどのマルチモーダルベンチマークでAR VLMに対して競争力のあるまたは優れたパフォーマンスを達成すると同時に、柔軟な速度品質のトレードオフ、制御性、双方向の推論など、DMの独自の利点を提供することが示されています。
Cocoキャプションでは、Lavidaは1.92倍のスピードアップで+4.1サイダー+4.1サイダーを上回ります。
双方向のタスクでは、制約された詩の完成に対して +59%の改善を達成します。
これらの結果は、AR VLMの強力な代替手段としてLavidaを示しています。
コードとモデルは、カメラ対応バージョンでリリースされます。

要約(オリジナル)

Modern Vision-Language Models (VLMs) can solve a wide range of tasks requiring visual reasoning. In real-world scenarios, desirable properties for VLMs include fast inference and controllable generation (e.g., constraining outputs to adhere to a desired format). However, existing autoregressive (AR) VLMs like LLaVA struggle in these aspects. Discrete diffusion models (DMs) offer a promising alternative, enabling parallel decoding for faster inference and bidirectional context for controllable generation through text-infilling. While effective in language-only settings, DMs’ potential for multimodal tasks is underexplored. We introduce LaViDa, a family of VLMs built on DMs. We build LaViDa by equipping DMs with a vision encoder and jointly fine-tune the combined parts for multimodal instruction following. To address challenges encountered, LaViDa incorporates novel techniques such as complementary masking for effective training, prefix KV cache for efficient inference, and timestep shifting for high-quality sampling. Experiments show that LaViDa achieves competitive or superior performance to AR VLMs on multi-modal benchmarks such as MMMU, while offering unique advantages of DMs, including flexible speed-quality tradeoff, controllability, and bidirectional reasoning. On COCO captioning, LaViDa surpasses Open-LLaVa-Next-8B by +4.1 CIDEr with 1.92x speedup. On bidirectional tasks, it achieves +59% improvement on Constrained Poem Completion. These results demonstrate LaViDa as a strong alternative to AR VLMs. Code and models will be released in the camera-ready version.

arxiv情報

著者 Shufan Li,Konstantinos Kallidromitis,Hritik Bansal,Akash Gokul,Yusuke Kato,Kazuki Kozuka,Jason Kuen,Zhe Lin,Kai-Wei Chang,Aditya Grover
発行日 2025-05-23 07:07:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク