要約
私たちは、言語命令に続いて高解像度の光エアリスティックな画像を生成できるビットワイズの視覚的自己回帰モデリングである無限を提示します。
Infinityは、Infinite-Vocabulary Tokanizer&分類器とビットワイズの自己修正メカニズムを備えたビットワイズトークン予測フレームワークの下で、視覚的な自己回帰モデルを再定義し、生成能力と詳細を著しく改善します。
理論的にトークン剤の語彙サイズを無限にスケーリングし、変圧器のサイズを同時にスケーリングすることにより、私たちの方法は、バニラvarと比較して強力なスケーリング機能を大幅に解放します。
Infinityは、SD3-MediumやSDXLなどのトップティア拡散モデルを上回る、自己回帰テキストから画像モデルの新しいレコードを設定します。
特に、Infinityは、0.62から0.73の遺伝的ベンチマークスコアを改善し、Imagereward Benchmarkスコアを0.87から0.96に改善することにより、SD3メディアを上回り、66%の勝利を達成します。
追加の最適化がなければ、Infinityは0.8秒で高品質の1024×1024画像を生成し、SD3メディウムよりも2.6倍高速になり、最速のテキストから画像モデルとして確立します。
モデルとコードがリリースされ、視覚生成および統一トークネイザーモデリングのための無限のさらなる調査を促進します。
要約(オリジナル)
We present Infinity, a Bitwise Visual AutoRegressive Modeling capable of generating high-resolution, photorealistic images following language instruction. Infinity redefines visual autoregressive model under a bitwise token prediction framework with an infinite-vocabulary tokenizer & classifier and bitwise self-correction mechanism, remarkably improving the generation capacity and details. By theoretically scaling the tokenizer vocabulary size to infinity and concurrently scaling the transformer size, our method significantly unleashes powerful scaling capabilities compared to vanilla VAR. Infinity sets a new record for autoregressive text-to-image models, outperforming top-tier diffusion models like SD3-Medium and SDXL. Notably, Infinity surpasses SD3-Medium by improving the GenEval benchmark score from 0.62 to 0.73 and the ImageReward benchmark score from 0.87 to 0.96, achieving a win rate of 66%. Without extra optimization, Infinity generates a high-quality 1024×1024 image in 0.8 seconds, making it 2.6x faster than SD3-Medium and establishing it as the fastest text-to-image model. Models and codes will be released to promote further exploration of Infinity for visual generation and unified tokenizer modeling.
arxiv情報
著者 | Jian Han,Jinlai Liu,Yi Jiang,Bin Yan,Yuqi Zhang,Zehuan Yuan,Bingyue Peng,Xiaobing Liu |
発行日 | 2025-06-17 15:32:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google