Infinity: Scaling Bitwise AutoRegressive Modeling for High-Resolution Image Synthesis

要約

私たちは、言語命令に従って高解像度でフォトリアリスティックな画像を生成できるビットごとのビジュアル自動回帰モデリングである Infinity を紹介します。
Infinity は、無限語彙トークナイザーと分類子、およびビット単位の自己修正メカニズムを備えたビット単位のトークン予測フレームワークに基づいて視覚的自己回帰モデルを再定義し、生成能力と詳細を大幅に向上させます。
トークナイザーの語彙サイズを理論的に無限にスケーリングし、同時にトランスフォーマーのサイズをスケーリングすることにより、私たちの方法は、バニラ VAR と比較して強力なスケーリング機能を大幅に解放します。
Infinity は、SD3-Medium や SDXL などの最上位の拡散モデルを上回る、自己回帰テキストから画像へのモデルの新記録を樹立しました。
特に、Infinity は GenEval ベンチマーク スコアを 0.62 から 0.73 に、ImageReward ベンチマーク スコアを 0.87 から 0.96 に改善し、66% の勝率を達成することで SD3-Medium を上回りました。
追加の最適化を行わない場合、Infinity は高品質の 1024×1024 画像を 0.8 秒で生成し、SD3-Medium よりも 2.6 倍高速になり、最速のテキストから画像への変換モデルとして確立されます。
ビジュアル生成と統合トークナイザー モデリングのための Infinity のさらなる探索を促進するために、モデルとコードがリリースされます。

要約(オリジナル)

We present Infinity, a Bitwise Visual AutoRegressive Modeling capable of generating high-resolution, photorealistic images following language instruction. Infinity redefines visual autoregressive model under a bitwise token prediction framework with an infinite-vocabulary tokenizer & classifier and bitwise self-correction mechanism, remarkably improving the generation capacity and details. By theoretically scaling the tokenizer vocabulary size to infinity and concurrently scaling the transformer size, our method significantly unleashes powerful scaling capabilities compared to vanilla VAR. Infinity sets a new record for autoregressive text-to-image models, outperforming top-tier diffusion models like SD3-Medium and SDXL. Notably, Infinity surpasses SD3-Medium by improving the GenEval benchmark score from 0.62 to 0.73 and the ImageReward benchmark score from 0.87 to 0.96, achieving a win rate of 66%. Without extra optimization, Infinity generates a high-quality 1024×1024 image in 0.8 seconds, making it 2.6x faster than SD3-Medium and establishing it as the fastest text-to-image model. Models and codes will be released to promote further exploration of Infinity for visual generation and unified tokenizer modeling.

arxiv情報

著者 Jian Han,Jinlai Liu,Yi Jiang,Bin Yan,Yuqi Zhang,Zehuan Yuan,Bingyue Peng,Xiaobing Liu
発行日 2024-12-05 18:53:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク