要約
V2Flowを提案します。これは、高忠実度の再構成が可能な離散視覚トークンを生成し、大規模な言語モデル(LLMS)の語彙空間と構造的および潜在的な分布の整合を確保します。
この緊密な視覚的なボキャブラリーカップリングを活用すると、V2Flowは既存のLLMの上に自己回帰視覚生成を可能にします。
私たちのアプローチは、LLMSの語彙空間内に埋め込まれたトークンシーケンスに条件付けられた連続画像分布の前に標準の通常からのマッピングを学習することを目的とした、フローマッチングの問題として視覚トークン化を定式化します。
V2Flowの有効性は、2つのコアデザインから生じます。
まず、視覚的なボキャブラリーの再サンプラーを提案します。これは、視覚データをコンパクトなトークンシーケンスに圧縮し、それぞれがLLMの語彙上のソフトカテゴリ分布として表されます。
これにより、視覚的なトークンを既存のLLMにシームレスに統合して、自己回帰の視覚生成が可能になります。
第二に、マスクされた自動脱体性の修正フローデコーダーを提示し、マスクされたトランスエンコーダーデコーダーを使用して、視覚的なトークンを文脈的に濃縮した埋め込みに洗練させます。
これらの埋め込みは、正確な再構成のために専用の速度フィールドを条件付けます。
さらに、自己回帰整流フローサンプリング戦略が組み込まれており、競争力のある再構築品質を維持しながら、柔軟なシーケンスの長さを確保します。
広範な実験では、V2Flowが主流のVQベースのトーナイザーを上回り、既存の上に自己回帰の視覚生成を促進することが示されています。
https://github.com/zhangguiwei610/v2flow
要約(オリジナル)
We propose V2Flow, a novel tokenizer that produces discrete visual tokens capable of high-fidelity reconstruction, while ensuring structural and latent distribution alignment with the vocabulary space of large language models (LLMs). Leveraging this tight visual-vocabulary coupling, V2Flow enables autoregressive visual generation on top of existing LLMs. Our approach formulates visual tokenization as a flow-matching problem, aiming to learn a mapping from a standard normal prior to the continuous image distribution, conditioned on token sequences embedded within the LLMs vocabulary space. The effectiveness of V2Flow stems from two core designs. First, we propose a Visual Vocabulary resampler, which compresses visual data into compact token sequences, with each represented as a soft categorical distribution over LLM’s vocabulary. This allows seamless integration of visual tokens into existing LLMs for autoregressive visual generation. Second, we present a masked autoregressive Rectified-Flow decoder, employing a masked transformer encoder-decoder to refine visual tokens into contextually enriched embeddings. These embeddings then condition a dedicated velocity field for precise reconstruction. Additionally, an autoregressive rectified-flow sampling strategy is incorporated, ensuring flexible sequence lengths while preserving competitive reconstruction quality. Extensive experiments show that V2Flow outperforms mainstream VQ-based tokenizers and facilitates autoregressive visual generation on top of existing. https://github.com/zhangguiwei610/V2Flow
arxiv情報
著者 | Guiwei Zhang,Tianyu Zhang,Mohan Zhou,Yalong Bai,Biye Li |
発行日 | 2025-03-10 16:12:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google