Flowing from Words to Pixels: A Framework for Cross-Modality Evolution

要約

拡散モデルとその一般化であるフロー マッチングは、メディア生成の分野に顕著な影響を与えてきました。
ここで、従来のアプローチは、ガウス ノイズの単純なソース分布からターゲット メディア分布への複雑なマッピングを学習することです。
テキストから画像への生成などのクロスモーダル タスクの場合、モデルに調整メカニズムを含めながら、ノイズから画像への同じマッピングが学習されます。
フロー マッチングの重要な、そしてこれまで比較的未開発の機能の 1 つは、拡散モデルとは異なり、ソース分布がノイズになるように制約されていないことです。
したがって、この論文では、パラダイム シフトを提案し、代わりにフロー マッチング モデルをトレーニングして、あるモダリティの分布から別のモダリティの分布への直接マッピングを学習して、両方のノイズの必要性を回避できるかどうかという問題を提起します。
分配および調整メカニズム。
クロスモーダル フロー マッチングのための、一般的でシンプルなフレームワーク CrossFlow を紹介します。
入力データに変分エンコーダーを適用することの重要性を示し、分類子を使用しないガイダンスを可能にする方法を紹介します。
驚くべきことに、テキストから画像への変換では、クロスアテンションのないバニラトランスフォーマーを使用した CrossFlow は、標準的なフローマッチングよりもわずかに優れたパフォーマンスを示し、トレーニングステップとモデルサイズに応じてより適切に拡張できると同時に、意味的に意味のある編集をもたらす興味深い潜在的な演算も可能であることを示しています。
出力スペースで。
私たちのアプローチの一般化可能性を実証するために、CrossFlow がさまざまなクロスモーダル/イントラモーダル マッピング タスクに関して最先端のものと同等かそれを上回っていることも示します。
画像キャプション、深度推定、画像超解像度。
この文書がクロスモーダル メディア生成の進歩の加速に貢献することを願っています。

要約(オリジナル)

Diffusion models, and their generalization, flow matching, have had a remarkable impact on the field of media generation. Here, the conventional approach is to learn the complex mapping from a simple source distribution of Gaussian noise to the target media distribution. For cross-modal tasks such as text-to-image generation, this same mapping from noise to image is learnt whilst including a conditioning mechanism in the model. One key and thus far relatively unexplored feature of flow matching is that, unlike Diffusion models, they are not constrained for the source distribution to be noise. Hence, in this paper, we propose a paradigm shift, and ask the question of whether we can instead train flow matching models to learn a direct mapping from the distribution of one modality to the distribution of another, thus obviating the need for both the noise distribution and conditioning mechanism. We present a general and simple framework, CrossFlow, for cross-modal flow matching. We show the importance of applying Variational Encoders to the input data, and introduce a method to enable Classifier-free guidance. Surprisingly, for text-to-image, CrossFlow with a vanilla transformer without cross attention slightly outperforms standard flow matching, and we show that it scales better with training steps and model size, while also allowing for interesting latent arithmetic which results in semantically meaningful edits in the output space. To demonstrate the generalizability of our approach, we also show that CrossFlow is on par with or outperforms the state-of-the-art for various cross-modal / intra-modal mapping tasks, viz. image captioning, depth estimation, and image super-resolution. We hope this paper contributes to accelerating progress in cross-modal media generation.

arxiv情報

著者 Qihao Liu,Xi Yin,Alan Yuille,Andrew Brown,Mannat Singh
発行日 2024-12-19 18:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク