FiT: Flexible Vision Transformer for Diffusion Model

要約

自然は無限に解像度がありません。
この現実を踏まえると、拡散トランスフォーマーなどの既存の拡散モデルは、トレーニング済みドメインの外で画像解像度を処理するときに課題に直面することがよくあります。
この制限を克服するために、無制限の解像度とアスペクト比の画像を生成するために特別に設計されたトランスフォーマー アーキテクチャである Flexible Vision Transformer (FiT) を紹介します。
画像を静的解像度のグリッドとして認識する従来の方法とは異なり、FiT は画像を動的にサイズ変更されたトークンのシーケンスとして概念化します。
この観点により、トレーニング段階と推論段階の両方で多様なアスペクト比に簡単に適応する柔軟なトレーニング戦略が可能になり、解像度の一般化が促進され、画像のトリミングによって引き起こされるバイアスが排除されます。
細心の注意を払って調整されたネットワーク構造とトレーニング不要の外挿技術の統合によって強化された FiT は、解像度外挿生成において優れた柔軟性を示します。
包括的な実験により、幅広い解像度にわたって FiT の優れたパフォーマンスが実証され、トレーニング解像度分布内外の両方で FiT の有効性が実証されました。
リポジトリは https://github.com/whlzy/FiT で入手できます。

要約(オリジナル)

Nature is infinitely resolution-free. In the context of this reality, existing diffusion models, such as Diffusion Transformers, often face challenges when processing image resolutions outside of their trained domain. To overcome this limitation, we present the Flexible Vision Transformer (FiT), a transformer architecture specifically designed for generating images with unrestricted resolutions and aspect ratios. Unlike traditional methods that perceive images as static-resolution grids, FiT conceptualizes images as sequences of dynamically-sized tokens. This perspective enables a flexible training strategy that effortlessly adapts to diverse aspect ratios during both training and inference phases, thus promoting resolution generalization and eliminating biases induced by image cropping. Enhanced by a meticulously adjusted network structure and the integration of training-free extrapolation techniques, FiT exhibits remarkable flexibility in resolution extrapolation generation. Comprehensive experiments demonstrate the exceptional performance of FiT across a broad range of resolutions, showcasing its effectiveness both within and beyond its training resolution distribution. Repository available at https://github.com/whlzy/FiT.

arxiv情報

著者 Zeyu Lu,Zidong Wang,Di Huang,Chengyue Wu,Xihui Liu,Wanli Ouyang,Lei Bai
発行日 2024-02-19 18:59:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク