Dimple: Discrete Diffusion Multimodal Large Language Model with Parallel Decoding

要約

この作業では、最初の離散拡散マルチモーダル大手言語モデル(DMLLM)であるディンプルを提案します。
純粋に個別の拡散アプローチを備えたトレーニングは、重要なトレーニング不安定性、最適ではないパフォーマンス、重度の長さのバイアスの問題につながることを観察します。
これらの課題に対処するために、初期の自己回帰相とその後の拡散フェーズを組み合わせた新しいトレーニングパラダイムを設計します。
このアプローチは、同じデータセットでトレーニングされ、Llava-Nextと同様のトレーニングパイプラインを使用して、Dimple-7Bモデルを生成します。
Dimple-7Bは最終的にパフォーマンスのLlava-Nextを3.9%上回り、DMLLMが自己回帰モデルのパフォーマンスに匹敵するパフォーマンスを達成できることを示しています。
推論効率を改善するために、自信のあるデコードと呼ばれるデコード戦略を提案します。これは、各ステップで生成されるトークンの数を動的に調整し、生成の反復回数を大幅に削減します。
自己回帰モデルでは、生成中の前方反復の数は応答長に等しくなります。
ただし、自信に満ちたデコードでは、ディンプルが必要とする反復の数は、$ \ frac {\ text {response length}} {3} $のみです。
また、自己回帰モデルのプリファリング手法を再実装し、1.5倍から7倍のスピードアップを提供しながら、ほとんどのベンチマーク評価でパフォーマンスに大きな影響を与えないことを示しています。
さらに、Dimpleの能力を調査して、構造プライアーを使用して応答を正確に制御します。
これらのプライアーは、命令ベースまたは考え方のプロンプトとは異なる方法で構造化された応答を可能にし、応答形式と長さを細かく制御できるようにします。
全体として、この作業はDMLLMの実現可能性と利点を検証し、その推論効率と制御可能性を高めます。
コードとモデルはhttps://github.com/yu-rp/dimpleで入手できます。

要約(オリジナル)

In this work, we propose Dimple, the first Discrete Diffusion Multimodal Large Language Model (DMLLM). We observe that training with a purely discrete diffusion approach leads to significant training instability, suboptimal performance, and severe length bias issues. To address these challenges, we design a novel training paradigm that combines an initial autoregressive phase with a subsequent diffusion phase. This approach yields the Dimple-7B model, trained on the same dataset and using a similar training pipeline as LLaVA-NEXT. Dimple-7B ultimately surpasses LLaVA-NEXT in performance by 3.9%, demonstrating that DMLLM can achieve performance comparable to that of autoregressive models. To improve inference efficiency, we propose a decoding strategy termed confident decoding, which dynamically adjusts the number of tokens generated at each step, significantly reducing the number of generation iterations. In autoregressive models, the number of forward iterations during generation equals the response length. With confident decoding, however, the number of iterations needed by Dimple is even only $\frac{\text{response length}}{3}$. We also re-implement the prefilling technique in autoregressive models and demonstrate that it does not significantly impact performance on most benchmark evaluations, while offering a speedup of 1.5x to 7x. Additionally, we explore Dimple’s capability to precisely control its response using structure priors. These priors enable structured responses in a manner distinct from instruction-based or chain-of-thought prompting, and allow fine-grained control over response format and length, which is difficult to achieve in autoregressive models. Overall, this work validates the feasibility and advantages of DMLLM and enhances its inference efficiency and controllability. Code and models are available at https://github.com/yu-rp/Dimple.

arxiv情報

著者 Runpeng Yu,Xinyin Ma,Xinchao Wang
発行日 2025-05-22 17:55:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク