要約
スケールごとの自動回帰パラダイムを使用するテキストから画像モデルであるStarを紹介します。
最大256 $ \ Times $ 256の画像のクラス条件付き合成に制約されているVARとは異なり、スターは、3つの重要なデザインで1024 $ \ Times $ 1024までのテキスト駆動型の画像生成を有効にします。
まず、事前に訓練されたテキストエンコーダーを導入して、テキストの制約のために表現を抽出および採用し、詳細と一般化を強化します。
第二に、異なるスケールにわたって固有の構造相関を考えると、2Dロータリー位置エンコード(ロープ)を活用して正規化されたバージョンに調整し、トークンマップ全体の相対位置の一貫した解釈を確保し、トレーニングプロセスを安定させます。
第三に、単一のスケール内のすべてのトークンを同時にサンプリングすると、特に高解像度の世代では、構造的不安定性につながる可能性があることがわかります。
これに対処するために、因果関係をサンプリングプロセスに組み込んだ新しい安定したサンプリング方法を提案し、豊富な詳細と安定した構造の両方を確保します。
以前の拡散モデルや自動回帰モデルと比較して、星は忠実度、テキストイメージの一貫性、美的品質の既存のベンチマークを上回り、A100で1024 $ \ Times $ 1024画像でわずか2.21秒を必要とします。
これは、高品質の画像合成における自己回帰方法の可能性を強調し、テキストから画像の生成のための新しい方向を提供します。
要約(オリジナル)
We introduce STAR, a text-to-image model that employs a scale-wise auto-regressive paradigm. Unlike VAR, which is constrained to class-conditioned synthesis for images up to 256$\times$256, STAR enables text-driven image generation up to 1024$\times$1024 through three key designs. First, we introduce a pre-trained text encoder to extract and adopt representations for textual constraints, enhancing details and generalizability. Second, given the inherent structural correlation across different scales, we leverage 2D Rotary Positional Encoding (RoPE) and tweak it into a normalized version, ensuring consistent interpretation of relative positions across token maps and stabilizing the training process. Third, we observe that simultaneously sampling all tokens within a single scale can disrupt inter-token relationships, leading to structural instability, particularly in high-resolution generation. To address this, we propose a novel stable sampling method that incorporates causal relationships into the sampling process, ensuring both rich details and stable structures. Compared to previous diffusion models and auto-regressive models, STAR surpasses existing benchmarks in fidelity, text-image consistency, and aesthetic quality, requiring just 2.21s for 1024$\times$1024 images on A100. This highlights the potential of auto-regressive methods in high-quality image synthesis, offering new directions for the text-to-image generation.
arxiv情報
著者 | Xiaoxiao Ma,Mohan Zhou,Tao Liang,Yalong Bai,Tiejun Zhao,Biye Li,Huaian Chen,Yi Jin |
発行日 | 2025-02-19 06:00:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google