Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models

要約

言語生成において長く支配的な自己回帰(AR)モデルは、画像合成にますます適用されていますが、拡散ベースのモデルよりも競争力が低いと見なされることがよくあります。
主な制限は、ARモデルに必要なかなりの数の画像トークンであり、トレーニングと推論効率の両方、ならびに画像解像度の両方を制約します。
これに対処するために、Token-Shuffleを提示します。これは、変圧器の画像トークンの数を減らす斬新でシンプルな方法です。
私たちの重要な洞察は、視覚エンコーダーからの低次元の視覚コードが高次元の言語語彙に直接マッピングされるマルチモーダル大手言語モデル(MLLM)における視覚語彙の寸法冗長性です。
これを活用して、2つの重要な操作を検討します。トークンシャッフルは、チャネル寸法に沿って空間的に局所的なトークンをマージして入力トークン数を減少させます。トークン非シャッフルは、変圧器ブロック後に推定されるトークンを解き放ち、出力の空間配置を復元します。
テキストのプロンプトと共同トレーニングを行うと、当社の戦略は追加の前提条件のテキストエンコーダーを必要とせず、MLLMが効率的なトレーニングと推論を維持しながら、統一された次のトークン予測方法で非常に高解像度の画像合成をサポートできるようにします。
初めて、ARテキストからイメージの生成の境界を、満足のいく生成パフォーマンスで2048×2048の解像度に押し上げます。
Genaiベンチマークでは、2.7Bモデルはハードプロンプトで0.77の総合スコアを達成し、ARモデルLlamagenを0.18、拡散モデルLDMを0.15に上回ります。
徹底的な大規模な人間の評価は、テキスト調整、視覚的欠陥、視覚的外観の観点から、私たちの顕著な画像生成能力を示しています。
トークンシャッフルが、MLLM内の効率的な高解像度の画像生成の基礎デザインとして機能することを願っています。

要約(オリジナル)

Autoregressive (AR) models, long dominant in language generation, are increasingly applied to image synthesis but are often considered less competitive than Diffusion-based models. A primary limitation is the substantial number of image tokens required for AR models, which constrains both training and inference efficiency, as well as image resolution. To address this, we present Token-Shuffle, a novel yet simple method that reduces the number of image tokens in Transformer. Our key insight is the dimensional redundancy of visual vocabularies in Multimodal Large Language Models (MLLMs), where low-dimensional visual codes from visual encoder are directly mapped to high-dimensional language vocabularies. Leveraging this, we consider two key operations: token-shuffle, which merges spatially local tokens along channel dimension to decrease the input token number, and token-unshuffle, which untangles the inferred tokens after Transformer blocks to restore the spatial arrangement for output. Jointly training with textual prompts, our strategy requires no additional pretrained text-encoder and enables MLLMs to support extremely high-resolution image synthesis in a unified next-token prediction way while maintaining efficient training and inference. For the first time, we push the boundary of AR text-to-image generation to a resolution of 2048×2048 with gratifying generation performance. In GenAI-benchmark, our 2.7B model achieves 0.77 overall score on hard prompts, outperforming AR models LlamaGen by 0.18 and diffusion models LDM by 0.15. Exhaustive large-scale human evaluations also demonstrate our prominent image generation ability in terms of text-alignment, visual flaw, and visual appearance. We hope that Token-Shuffle can serve as a foundational design for efficient high-resolution image generation within MLLMs.

arxiv情報

著者 Xu Ma,Peize Sun,Haoyu Ma,Hao Tang,Chih-Yao Ma,Jialiang Wang,Kunpeng Li,Xiaoliang Dai,Yujun Shi,Xuan Ju,Yushi Hu,Artsiom Sanakoyeu,Felix Juefei-Xu,Ji Hou,Junjiao Tian,Tao Xu,Tingbo Hou,Yen-Cheng Liu,Zecheng He,Zijian He,Matt Feiszli,Peizhao Zhang,Peter Vajda,Sam Tsai,Yun Fu
発行日 2025-04-24 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク