要約
この作業は、視覚的自己回帰モデリングの残留予測パラダイムに挑戦し、新しい柔軟な視覚的自己回帰画像生成パラダイムであるFlexVarを提示します。
FlexVarは、グラウンドトゥルース予測で自己回帰学習を促進し、各ステップがもっともらしい画像を独立して作成できるようにします。
このシンプルで直感的なアプローチは、視覚的分布を迅速に学習し、生成プロセスをより柔軟で適応性のあるものにします。
低解像度の画像($ \ leq $ 256px)でのみトレーニングされているFlexvar Can:(1)トレーニング画像の解像度を超えて、さまざまな解像度とアスペクト比の画像を生成します。
(2)画像の洗練、イン/アウトペインティング、画像拡張など、さまざまな画像から画像間タスクをサポートします。
(3)さまざまな自己回帰の手順に適応し、より少ないステップでより速い推論を可能にしたり、より多くのステップで画質を向上させたりします。
1.0Bモデルは、Imagenet 256 $ \ Times $ 256ベンチマークのVARカウンターパートよりも優れています。
さらに、ゼロショットの場合、画像生成プロセスを13ステップで転送すると、パフォーマンスはさらに2.08 FIDに改善され、最先端のオートレーフモデルが0.25/0.28 FID、および一般的な拡散モデルLDM/DITを1.52/0.19 FIDよりも優れています。
1.0BモデルをImagenet 512 $ \ Times 512 $ 512ベンチマークにゼロショット方法で転送する場合、FlexVarはVAR 2.3Bモデルと比較して競争上の結果を達成します。
要約(オリジナル)
This work challenges the residual prediction paradigm in visual autoregressive modeling and presents FlexVAR, a new Flexible Visual AutoRegressive image generation paradigm. FlexVAR facilitates autoregressive learning with ground-truth prediction, enabling each step to independently produce plausible images. This simple, intuitive approach swiftly learns visual distributions and makes the generation process more flexible and adaptable. Trained solely on low-resolution images ($\leq$ 256px), FlexVAR can: (1) Generate images of various resolutions and aspect ratios, even exceeding the resolution of the training images. (2) Support various image-to-image tasks, including image refinement, in/out-painting, and image expansion. (3) Adapt to various autoregressive steps, allowing for faster inference with fewer steps or enhancing image quality with more steps. Our 1.0B model outperforms its VAR counterpart on the ImageNet 256$\times$256 benchmark. Moreover, when zero-shot transfer the image generation process with 13 steps, the performance further improves to 2.08 FID, outperforming state-of-the-art autoregressive models AiM/VAR by 0.25/0.28 FID and popular diffusion models LDM/DiT by 1.52/0.19 FID, respectively. When transferring our 1.0B model to the ImageNet 512$\times$512 benchmark in a zero-shot manner, FlexVAR achieves competitive results compared to the VAR 2.3B model, which is a fully supervised model trained at 512$\times$512 resolution.
arxiv情報
著者 | Siyu Jiao,Gengwei Zhang,Yinlong Qian,Jiancheng Huang,Yao Zhao,Humphrey Shi,Lin Ma,Yunchao Wei,Zequn Jie |
発行日 | 2025-02-27 17:39:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google