MonoFormer: One Transformer for Both Diffusion and Autoregression

要約

既存のマルチモダリティ手法のほとんどは、自己回帰ベースの離散テキスト生成と拡散ベースの連続ビジュアル生成に別個のバックボーンを使用するか、ビジュアル データを離散化してテキストとビジュアルの両方の生成に自己回帰を使用することで同じバックボーンを使用します。
この論文では、自己回帰と拡散の両方に 1 つのトランスフォーマーを共有するという単純なアイデアを検討することを提案します。
実現可能性は 2 つの主な側面から得られます。(i) トランスフォーマーはビジュアル生成のための拡散にうまく適用されています。(ii) 自己回帰と拡散のためのトランスフォーマーのトレーニングは非常に似ています。違いは、拡散が双方向のアテンション マスクを使用し、自己回帰が使用することだけです。
因果的注意マスク。
実験結果は、私たちのアプローチが現在の最先端の方法と同等の画像生成パフォーマンスを達成し、テキスト生成機能を維持することを示しています。
プロジェクトは https://monoformer.github.io/ で公開されています。

要約(オリジナル)

Most existing multimodality methods use separate backbones for autoregression-based discrete text generation and diffusion-based continuous visual generation, or the same backbone by discretizing the visual data to use autoregression for both text and visual generation. In this paper, we propose to study a simple idea: share one transformer for both autoregression and diffusion. The feasibility comes from two main aspects: (i) Transformer is successfully applied to diffusion for visual generation, and (ii) transformer training for autoregression and diffusion is very similar, and the difference merely lies in that diffusion uses bidirectional attention mask and autoregression uses causal attention mask. Experimental results show that our approach achieves comparable image generation performance to current state-of-the-art methods as well as maintains the text generation capability. The project is publicly available at https://monoformer.github.io/.

arxiv情報

著者 Chuyang Zhao,Yuxing Song,Wenhao Wang,Haocheng Feng,Errui Ding,Yifan Sun,Xinyan Xiao,Jingdong Wang
発行日 2024-09-24 17:51:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク