LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning

要約

この作業では、現在のマルチモーダルアプローチで支配的な自己網性パラダイムからの逸脱を表す、視覚命令のチューニングをマスクされた拡散モデルと統合する純粋に拡散ベースのマルチモーダル大手言語モデル(MLLM)であるLlada-Vを紹介します。
代表的な大規模な言語拡散モデルであるLladaに基づいて構築されたLLADA-Vには、視覚的特徴を言語の埋め込みスペースに投影するVision EncoderとMLPコネクタが組み込まれ、効果的なマルチモーダルアライメントが可能になります。
私たちの経験的調査は、いくつかの興味深い結果を明らかにしています。まず、LLADA-Vは、Llama3-8BやQWEN2-7Bなどのカウンターパートよりも純粋にテキストのタスクで言語モデルが弱いにもかかわらず有望なマルチモーダルパフォーマンスを示しています。
同じ命令データでトレーニングされると、LLADA-Vは、より良いデータスケーラビリティを備えたマルチモーダルタスク全体でLLAMA3-Vに対して非常に競争力があります。
また、パフォーマンスのギャップをQWEN2-VLに絞り込み、マルチモーダルタスクのアーキテクチャの有効性を示唆しています。
第二に、LLADA-Vは、既存のハイブリッド自己回帰拡散および純粋に拡散ベースのMLLMと比較して、マルチモーダル理解で最先端のパフォーマンスを達成します。
私たちの調査結果は、大規模な言語拡散モデルがマルチモーダルの文脈で有望であり、将来の研究でさらなる調査を保証することを示唆しています。
プロジェクトページとコード:https://ml-gsai.github.io/llada-v-demo/。

要約(オリジナル)

In this work, we introduce LLaDA-V, a purely diffusion-based Multimodal Large Language Model (MLLM) that integrates visual instruction tuning with masked diffusion models, representing a departure from the autoregressive paradigms dominant in current multimodal approaches. Built upon LLaDA, a representative large language diffusion model, LLaDA-V incorporates a vision encoder and MLP connector that projects visual features into the language embedding space, enabling effective multimodal alignment. Our empirical investigation reveals several intriguing results: First, LLaDA-V demonstrates promising multimodal performance despite its language model being weaker on purely textual tasks than counterparts like LLaMA3-8B and Qwen2-7B. When trained on the same instruction data, LLaDA-V is highly competitive to LLaMA3-V across multimodal tasks with better data scalability. It also narrows the performance gap to Qwen2-VL, suggesting the effectiveness of its architecture for multimodal tasks. Second, LLaDA-V achieves state-of-the-art performance in multimodal understanding compared to existing hybrid autoregressive-diffusion and purely diffusion-based MLLMs. Our findings suggest that large language diffusion models show promise in multimodal contexts and warrant further investigation in future research. Project page and codes: https://ml-gsai.github.io/LLaDA-V-demo/.

arxiv情報

著者 Zebin You,Shen Nie,Xiaolu Zhang,Jun Hu,Jun Zhou,Zhiwu Lu,Ji-Rong Wen,Chongxuan Li
発行日 2025-05-22 17:23:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク