MMaDA: Multimodal Large Diffusion Language Models

要約

テキストの推論、マルチモーダル理解、テキストからイメージの生成などの多様なドメインで優れたパフォーマンスを実現するように設計されたマルチモーダル拡散基礎モデルの新しいクラスであるMMADAを紹介します。
このアプローチは、3つの重要なイノベーションによって区別されます。(i)Mmadaは、共有確率的定式化とモダリティに依存しない設計を備えた統一された拡散アーキテクチャを採用し、モダリティ固有のコンポーネントの必要性を排除します。
このアーキテクチャにより、さまざまなデータ型にわたるシームレスな統合と処理が保証されます。
(ii)モダリティ全体で統一されたCOT形式をキュレーションする混合された長い考え方(COT)微調整戦略を実装します。
テキストドメインとビジュアルドメイン間の推論プロセスを調整することにより、この戦略は最終補強学習(RL)段階のコールドスタートトレーニングを促進し、それにより、最初から複雑なタスクを処理するモデルの能力を高めます。
(iii)拡散基礎モデルに特化した統一されたポリシー勾配ベースのRLアルゴリズムであるUnigrpoを提案します。
多様化された報酬モデリングを利用して、Unigrpoは、推論と世代の両方のタスクにわたってトレーニング後に統合し、一貫したパフォーマンスの改善を確保します。
実験結果は、MMADA-8Bが統一されたマルチモーダルファンデーションモデルとして強力な一般化能力を示すことを示しています。
テキストの推論でLlama-3-7BやQWEN2-7Bなどの強力なモデルを上回り、マルチモーダル理解でShow-OとSeed-Xを上回り、テキストからイメージの生成でSDXLとJanusに優れています。
これらの成果は、統一された拡散アーキテクチャ内での事前トレーニングとトレーニング後のギャップを埋める際のMMADAの有効性を強調し、将来の研究開発のための包括的なフレームワークを提供します。
https://github.com/gen-verves/mmadaでコードとトレーニングモデルをオープンソースで囲みます

要約(オリジナル)

We introduce MMaDA, a novel class of multimodal diffusion foundation models designed to achieve superior performance across diverse domains such as textual reasoning, multimodal understanding, and text-to-image generation. The approach is distinguished by three key innovations: (i) MMaDA adopts a unified diffusion architecture with a shared probabilistic formulation and a modality-agnostic design, eliminating the need for modality-specific components. This architecture ensures seamless integration and processing across different data types. (ii) We implement a mixed long chain-of-thought (CoT) fine-tuning strategy that curates a unified CoT format across modalities. By aligning reasoning processes between textual and visual domains, this strategy facilitates cold-start training for the final reinforcement learning (RL) stage, thereby enhancing the model’s ability to handle complex tasks from the outset. (iii) We propose UniGRPO, a unified policy-gradient-based RL algorithm specifically tailored for diffusion foundation models. Utilizing diversified reward modeling, UniGRPO unifies post-training across both reasoning and generation tasks, ensuring consistent performance improvements. Experimental results demonstrate that MMaDA-8B exhibits strong generalization capabilities as a unified multimodal foundation model. It surpasses powerful models like LLaMA-3-7B and Qwen2-7B in textual reasoning, outperforms Show-o and SEED-X in multimodal understanding, and excels over SDXL and Janus in text-to-image generation. These achievements highlight MMaDA’s effectiveness in bridging the gap between pretraining and post-training within unified diffusion architectures, providing a comprehensive framework for future research and development. We open-source our code and trained models at: https://github.com/Gen-Verse/MMaDA

arxiv情報

著者 Ling Yang,Ye Tian,Bowen Li,Xinchen Zhang,Ke Shen,Yunhai Tong,Mengdi Wang
発行日 2025-05-21 17:59:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク