DualToken: Towards Unifying Visual Understanding and Generation with Dual Visual Vocabularies

要約

視覚的理解と生成に必要な異なる表現スペースは、大規模な言語モデルの自己回帰パラダイム内でそれらを統合する上で課題となります。
再建のために訓練された視力トークナイザーは、低レベルの知覚的な詳細をキャプチャすることに優れており、視覚生成に適していますが、タスクを理解するための高レベルのセマンティック表現がありません。
逆に、対照的な学習を介してトレーニングされたビジョンエンコーダーは言語とよく一致しますが、生成タスクのピクセル空間にデコードするのに苦労しています。
このギャップを埋めるために、DualTokenを提案します。これは、単一のトークン剤内の理解と生成の両方の表現を統合する方法です。
ただし、単一のトークナイザーに再構成とセマンティックの目標を直接統合すると、競合が生じ、再構成の品質とセマンティックパフォーマンスの両方でパフォーマンスが低下します。
単一のコードブックにセマンティック情報と知覚情報の両方を処理するように強制する代わりに、デュアルトークンは、高レベルと低レベルの機能用の個別のコードブックを導入し、固有の対立を相乗的な関係に効果的に変換することにより、それらを解き放ちます。
その結果、DualTokenは、再構成とセマンティックタスクの両方で最先端のパフォーマンスを達成しながら、下流のMLLMの理解と生成タスクで顕著な有効性を示しています。
特に、デュアルトークンは、統一されたトークナイザーとして、2つの異なるタイプビジョンエンコーダーの素朴な組み合わせを上回り、統一されたMLLM内で優れた性能を提供することを示しています。

要約(オリジナル)

The differing representation spaces required for visual understanding and generation pose a challenge in unifying them within the autoregressive paradigm of large language models. A vision tokenizer trained for reconstruction excels at capturing low-level perceptual details, making it well-suited for visual generation but lacking high-level semantic representations for understanding tasks. Conversely, a vision encoder trained via contrastive learning aligns well with language but struggles to decode back into the pixel space for generation tasks. To bridge this gap, we propose DualToken, a method that unifies representations for both understanding and generation within a single tokenizer. However, directly integrating reconstruction and semantic objectives in a single tokenizer creates conflicts, leading to degraded performance in both reconstruction quality and semantic performance. Instead of forcing a single codebook to handle both semantic and perceptual information, DualToken disentangles them by introducing separate codebooks for high and low-level features, effectively transforming their inherent conflict into a synergistic relationship. As a result, DualToken achieves state-of-the-art performance in both reconstruction and semantic tasks while demonstrating remarkable effectiveness in downstream MLLM understanding and generation tasks. Notably, we also show that DualToken, as a unified tokenizer, surpasses the naive combination of two distinct types vision encoders, providing superior performance within a unified MLLM.

arxiv情報

著者 Wei Song,Yuran Wang,Zijia Song,Yadong Li,Haoze Sun,Weipeng Chen,Zenan Zhou,Jianhua Xu,Jiaqi Wang,Kaicheng Yu
発行日 2025-03-19 12:58:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク