Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation

要約

通常、オートレーリングの視覚生成モデルは、トークン剤に依存して、順次予測できるトークンに画像を圧縮します。
トークン表現には根本的なジレンマが存在します。離散トークンは、標準的なエントロピー損失を伴う簡単なモデリングを可能にしますが、情報損失とトークナイザートレーニングの不安定性に悩まされます。
連続トークンは視覚的な詳細をよりよく保持しますが、複雑な分布モデリングが必要であり、生成パイプラインを複雑にします。
この論文では、Tokenbridgeを提案します。トークンブリッジは、離散トークンのモデリングシンプルさを保持しながら、連続トークンの強力な表現能力を維持することによりこのギャップを埋めることを提案します。
これを達成するために、連続表現から離散トークンを直接取得するトレーニング後の量子化を通じて、トークン剤トレーニングプロセスから離散化を分離します。
具体的には、結果として生じる大きなトークン空間を効率的にモデル化する軽量の自己回帰予測メカニズムと組み合わせた各特徴ディメンションを個別に離散化するディメンションごとの量子化戦略を導入します。
広範な実験では、我々のアプローチが標準的なカテゴリー予測を使用しながら、連続的な方法と同等の再構築と生成の品質を達成することを示しています。
この作業は、個別のパラダイムを橋渡しすることで、両方のアプローチの強みを効果的に活用し、単純な自己回帰モデリングを備えた高品質の視覚生成の有望な方向を提供できることを示しています。
プロジェクトページ:https://yuqingwang1029.github.io/tokenbridge。

要約(オリジナル)

Autoregressive visual generation models typically rely on tokenizers to compress images into tokens that can be predicted sequentially. A fundamental dilemma exists in token representation: discrete tokens enable straightforward modeling with standard cross-entropy loss, but suffer from information loss and tokenizer training instability; continuous tokens better preserve visual details, but require complex distribution modeling, complicating the generation pipeline. In this paper, we propose TokenBridge, which bridges this gap by maintaining the strong representation capacity of continuous tokens while preserving the modeling simplicity of discrete tokens. To achieve this, we decouple discretization from the tokenizer training process through post-training quantization that directly obtains discrete tokens from continuous representations. Specifically, we introduce a dimension-wise quantization strategy that independently discretizes each feature dimension, paired with a lightweight autoregressive prediction mechanism that efficiently model the resulting large token space. Extensive experiments show that our approach achieves reconstruction and generation quality on par with continuous methods while using standard categorical prediction. This work demonstrates that bridging discrete and continuous paradigms can effectively harness the strengths of both approaches, providing a promising direction for high-quality visual generation with simple autoregressive modeling. Project page: https://yuqingwang1029.github.io/TokenBridge.

arxiv情報

著者 Yuqing Wang,Zhijie Lin,Yao Teng,Yuanzhi Zhu,Shuhuai Ren,Jiashi Feng,Xihui Liu
発行日 2025-03-20 17:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク