FiTv2: Scalable and Improved Flexible Vision Transformer for Diffusion Model

要約

自然は無限に解像度がありません。
この現実を踏まえると、拡散トランスフォーマーなどの既存の拡散モデルは、トレーニング済みドメインの外で画像解像度を処理するときに課題に直面することがよくあります。
この制限に対処するために、画像を固定解像度のグリッドとして認識する従来の方法ではなく、画像を動的なサイズのトークンのシーケンスとして概念化します。
この観点により、トレーニングと推論の両方でさまざまなアスペクト比にシームレスに対応する柔軟なトレーニング戦略が可能になり、解像度の一般化が促進され、画像のトリミングによってもたらされるバイアスが排除されます。
これに基づいて、無制限の解像度とアスペクト比の画像を生成するために特別に設計されたトランスフォーマー アーキテクチャである Flexible Vision Transformer (FiT) を紹介します。
さらに、Query-Key ベクトル正規化、AdaLN-LoRA モジュール、修正フロー スケジューラー、ロジット正規サンプラーなどのいくつかの革新的な設計により、FiT を FiTv2 にアップグレードします。
細心の注意を払って調整されたネットワーク構造によって強化された FiTv2 は、FiT の 2 倍の収束速度を示します。
高度なトレーニング不要の外挿技術を組み込むと、FiTv2 は解像度の外挿と多様な解像度の生成の両方で優れた適応性を示します。
さらに、FiTv2 モデルのスケーラビリティを調査した結果、モデルが大きいほど計算効率が優れていることが明らかになりました。
さらに、事前トレーニングされたモデルを高解像度生成に適応させるための効率的なトレーニング後戦略を導入します。
包括的な実験により、幅広い解像度にわたって FiTv2 の優れたパフォーマンスが実証されました。
任意の解像度の画像生成のための拡散トランスモデルの探索を促進するために、すべてのコードとモデルを https://github.com/whlzy/FiT でリリースしました。

要約(オリジナル)

Nature is infinitely resolution-free. In the context of this reality, existing diffusion models, such as Diffusion Transformers, often face challenges when processing image resolutions outside of their trained domain. To address this limitation, we conceptualize images as sequences of tokens with dynamic sizes, rather than traditional methods that perceive images as fixed-resolution grids. This perspective enables a flexible training strategy that seamlessly accommodates various aspect ratios during both training and inference, thus promoting resolution generalization and eliminating biases introduced by image cropping. On this basis, we present the Flexible Vision Transformer (FiT), a transformer architecture specifically designed for generating images with unrestricted resolutions and aspect ratios. We further upgrade the FiT to FiTv2 with several innovative designs, includingthe Query-Key vector normalization, the AdaLN-LoRA module, a rectified flow scheduler, and a Logit-Normal sampler. Enhanced by a meticulously adjusted network structure, FiTv2 exhibits 2x convergence speed of FiT. When incorporating advanced training-free extrapolation techniques, FiTv2 demonstrates remarkable adaptability in both resolution extrapolation and diverse resolution generation. Additionally, our exploration of the scalability of the FiTv2 model reveals that larger models exhibit better computational efficiency. Furthermore, we introduce an efficient post-training strategy to adapt a pre-trained model for the high-resolution generation. Comprehensive experiments demonstrate the exceptional performance of FiTv2 across a broad range of resolutions. We have released all the codes and models at https://github.com/whlzy/FiT to promote the exploration of diffusion transformer models for arbitrary-resolution image generation.

arxiv情報

著者 Zidong Wang,Zeyu Lu,Di Huang,Cai Zhou,Wanli Ouyang,Lei Bai
発行日 2024-10-01 16:38:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク