要約
最近、包括的なマルチモーダル モデルへの関心が高まっているため、多様なモダリティの統合が必要になっています。
しかし、この統合には方法論が異なるという問題があります。
継続的なビジュアル生成には、テキスト ドメインの自己回帰モデリングとは異なるにもかかわらず、フルシーケンスの拡散ベースのアプローチが必要です。
私たちは、自己回帰モデリング、つまり過去の決定論的な経験に基づいて未来を予測することは、ビジュアル生成モデルと潜在的な統合マルチモーダルモデルの両方の開発において依然として重要であると仮定します。
この論文では、視覚情報をモデル化するための自己回帰モデリングとフルパラメータ拡散の間の補間を検討します。
その中核となるのは、自己回帰ブロック単位の条件付き拡散トランスフォーマーである ACDiT であり、拡散のブロック サイズ、つまり自己回帰ユニットのサイズを柔軟に調整して、トークン単位の自己回帰とフルシーケンス拡散の間を補間することができます。
ACDiT は実装が簡単で、トレーニング中にスキップ・コーザル・アテンション・マスク (SCAM) を作成するだけで済みます。
推論中、プロセスは拡散ノイズ除去と KV キャッシュを最大限に活用できる自己回帰デコードの間を繰り返します。
画像およびビデオ生成タスクにおける ACDiT の有効性を検証します。
また、自己回帰モデリングの恩恵を受けて、普及目標に基づいてトレーニングされているにもかかわらず、ACDiT が視覚理解タスクにシームレスに使用できることも示します。
自己回帰モデリングと拡散の間のトレードオフの分析は、ACDiT が長期的なビジュアル生成タスクに使用できる可能性を示しています。
これらの強みにより、将来の統合モデルのバックボーンとして期待されます。
要約(オリジナル)
The recent surge of interest in comprehensive multimodal models has necessitated the unification of diverse modalities. However, the unification suffers from disparate methodologies. Continuous visual generation necessitates the full-sequence diffusion-based approach, despite its divergence from the autoregressive modeling in the text domain. We posit that autoregressive modeling, i.e., predicting the future based on past deterministic experience, remains crucial in developing both a visual generation model and a potential unified multimodal model. In this paper, we explore an interpolation between the autoregressive modeling and full-parameters diffusion to model visual information. At its core, we present ACDiT, an Autoregressive blockwise Conditional Diffusion Transformer, where the block size of diffusion, i.e., the size of autoregressive units, can be flexibly adjusted to interpolate between token-wise autoregression and full-sequence diffusion. ACDiT is easy to implement, as simple as creating a Skip-Causal Attention Mask (SCAM) during training. During inference, the process iterates between diffusion denoising and autoregressive decoding that can make full use of KV-Cache. We verify the effectiveness of ACDiT on image and video generation tasks. We also demonstrate that benefitted from autoregressive modeling, ACDiT can be seamlessly used in visual understanding tasks despite being trained on the diffusion objective. The analysis of the trade-off between autoregressive modeling and diffusion demonstrates the potential of ACDiT to be used in long-horizon visual generation tasks. These strengths make it promising as the backbone of future unified models.
arxiv情報
著者 | Jinyi Hu,Shengding Hu,Yuxuan Song,Yufei Huang,Mingxuan Wang,Hao Zhou,Zhiyuan Liu,Wei-Ying Ma,Maosong Sun |
発行日 | 2024-12-10 18:13:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google