要約
マルチモーダル生成と理解のための統一された拡散フレームワークには、シームレスで制御可能な画像拡散やその他のクロスモーダルタスクを実現するための変革的可能性があります。
この論文では、複数の生成タスクを単一の拡散モデルに統合する統合されたフレームワークであるMMGenを紹介します。
これには、(1)カテゴリ情報が与えられた単一の推論プロセスでマルチモーダル出力が同時に生成されるマルチモーダルカテゴリ条件付き生成。
(2)RGB画像からの深さ、表面正規、およびセグメンテーションマップを正確に予測するマルチモーダルの視覚的理解。
(3)特定のモダリティ条件およびその他の整列モダリティに基づいて、対応するRGB画像を生成するマルチモーダル条件付き生成。
私たちのアプローチは、さまざまなタスクを統合するための単純なモダリティ分解戦略とともに、マルチモーダル出力を柔軟にサポートする新しい拡散トランスを開発します。
広範な実験とアプリケーションは、多様なタスクと条件にわたるMMGenの有効性と優位性を実証し、同時生成と理解を必要とするアプリケーションの可能性を強調しています。
要約(オリジナル)
A unified diffusion framework for multi-modal generation and understanding has the transformative potential to achieve seamless and controllable image diffusion and other cross-modal tasks. In this paper, we introduce MMGen, a unified framework that integrates multiple generative tasks into a single diffusion model. This includes: (1) multi-modal category-conditioned generation, where multi-modal outputs are generated simultaneously through a single inference process, given category information; (2) multi-modal visual understanding, which accurately predicts depth, surface normals, and segmentation maps from RGB images; and (3) multi-modal conditioned generation, which produces corresponding RGB images based on specific modality conditions and other aligned modalities. Our approach develops a novel diffusion transformer that flexibly supports multi-modal output, along with a simple modality-decoupling strategy to unify various tasks. Extensive experiments and applications demonstrate the effectiveness and superiority of MMGen across diverse tasks and conditions, highlighting its potential for applications that require simultaneous generation and understanding.
arxiv情報
著者 | Jiepeng Wang,Zhaoqing Wang,Hao Pan,Yuan Liu,Dongdong Yu,Changhu Wang,Wenping Wang |
発行日 | 2025-03-26 15:37:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google