Scaling Rectified Flow Transformers for High-Resolution Image Synthesis

要約

拡散モデルは、ノイズに向かうデータの前方経路を反転させることで、ノイズからデータを作成するもので、画像や映像のような高次元の知覚データに対する強力な生成モデリング技法として登場した。整流フローは、データとノイズを直線で結ぶ最近の生成モデル定式化である。より優れた理論的特性と概念的な単純さにもかかわらず、標準的な手法としてまだ決定的に確立されていない。本研究では、知覚的に関連するスケールに偏らせることで、整流フローモデルを学習するための既存のノイズサンプリング技術を改良する。大規模な研究を通じて、高解像度のテキストから画像への合成のための既存の拡散定式化と比較して、このアプローチの優れた性能を実証する。さらに、2つのモダリティに対して別々の重みを使用し、画像とテキストトークン間の情報の双方向フローを可能にする、テキスト対画像生成のための新しい変換器ベースのアーキテクチャを提示し、テキスト理解、タイポグラフィ、人間の嗜好評価を改善する。我々は、このアーキテクチャが予測可能なスケーリング傾向に従い、様々なメトリクスと人間による評価によって測定されるように、より低い検証損失がテキストから画像への合成の改善に相関することを実証する。我々の最大のモデルは最先端のモデルを凌駕しており、実験データ、コード、モデルの重みを公開する予定である。

要約(オリジナル)

Diffusion models create data from noise by inverting the forward paths of data towards noise and have emerged as a powerful generative modeling technique for high-dimensional, perceptual data such as images and videos. Rectified flow is a recent generative model formulation that connects data and noise in a straight line. Despite its better theoretical properties and conceptual simplicity, it is not yet decisively established as standard practice. In this work, we improve existing noise sampling techniques for training rectified flow models by biasing them towards perceptually relevant scales. Through a large-scale study, we demonstrate the superior performance of this approach compared to established diffusion formulations for high-resolution text-to-image synthesis. Additionally, we present a novel transformer-based architecture for text-to-image generation that uses separate weights for the two modalities and enables a bidirectional flow of information between image and text tokens, improving text comprehension, typography, and human preference ratings. We demonstrate that this architecture follows predictable scaling trends and correlates lower validation loss to improved text-to-image synthesis as measured by various metrics and human evaluations. Our largest models outperform state-of-the-art models, and we will make our experimental data, code, and model weights publicly available.

arxiv情報

著者 Patrick Esser,Sumith Kulal,Andreas Blattmann,Rahim Entezari,Jonas Müller,Harry Saini,Yam Levi,Dominik Lorenz,Axel Sauer,Frederic Boesel,Dustin Podell,Tim Dockhorn,Zion English,Kyle Lacey,Alex Goodwin,Yannik Marek,Robin Rombach
発行日 2024-03-05 18:45:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク