Discrete Visual Tokens of Autoregression, by Diffusion, and for Reasoning

要約

画像表現の従来の空間前の事前を完全に破棄し、新しい個別の視覚トークネイザーである自己整合トークイザー(セルフトック)を導入します。
その設計コアでは、画像生成の逆拡散プロセスを使用して、自己回帰(AR)の事前(言語の因果構造を反映する)を視覚トークンに構成します。
ARプロパティは、次の2つの重要な方法で、従来の空間トークンと根本的に異なるセルフトックを作成します。 -SelfTokは、ビジョン言語モデル(VLMS)の拡散とARを統一するためのエレガントでミニマリストのアプローチを提供します。SelfokTokensを使用して画像を表現することにより、純粋に隔離のオブジェクト型アーキテクチェを使用してVLMをトレーニングすることができます。
-AR事前はベルマン方程式を満たしているのに対し、空間事前はそうではないことを理論的に示します。
したがって、SelfTokは、LLMSで達成されたものに匹敵する有効性を備えた視覚的生成のための強化学習(RL)をサポートします。
ARプロパティに加えて、SelftokはSotaトークネイザーでもあり、高品質の再構築と圧縮速度との間の好ましいトレードオフを達成します。
セルフトックを使用して、視覚的理解と生成タスクの両方のために純粋なAR VLMを構築します。
印象的なことに、テキストイメージのトレーニングペアを使用せずに、視覚トークンで動作する単純なポリシーグラデーションRLは、視覚的な生成ベンチマークを大幅に高め、既存のすべてのモデルを大きなマージンで上回ります。
したがって、視覚トークンが効果的なRLをサポートできないという長年の課題にセルフトックが効果的に対処すると考えています。
LLMSのRLの確立された強さと組み合わせると、これにより、真にマルチモーダルLLMの実現に一歩近づきます。
プロジェクトページ:https://selftok-team.github.io/report/。

要約(オリジナル)

We completely discard the conventional spatial prior in image representation and introduce a novel discrete visual tokenizer: Self-consistency Tokenizer (Selftok). At its design core, we compose an autoregressive (AR) prior — mirroring the causal structure of language — into visual tokens by using the reverse diffusion process of image generation. The AR property makes Selftok fundamentally distinct from traditional spatial tokens in the following two key ways: – Selftok offers an elegant and minimalist approach to unify diffusion and AR for vision-language models (VLMs): By representing images with Selftok tokens, we can train a VLM using a purely discrete autoregressive architecture — like that in LLMs — without requiring additional modules or training objectives. – We theoretically show that the AR prior satisfies the Bellman equation, whereas the spatial prior does not. Therefore, Selftok supports reinforcement learning (RL) for visual generation with effectiveness comparable to that achieved in LLMs. Besides the AR property, Selftok is also a SoTA tokenizer that achieves a favorable trade-off between high-quality reconstruction and compression rate. We use Selftok to build a pure AR VLM for both visual comprehension and generation tasks. Impressively, without using any text-image training pairs, a simple policy gradient RL working in the visual tokens can significantly boost the visual generation benchmark, surpassing all the existing models by a large margin. Therefore, we believe that Selftok effectively addresses the long-standing challenge that visual tokens cannot support effective RL. When combined with the well-established strengths of RL in LLMs, this brings us one step closer to realizing a truly multimodal LLM. Project Page: https://selftok-team.github.io/report/.

arxiv情報

著者 Bohan Wang,Zhongqi Yue,Fengda Zhang,Shuo Chen,Li’an Bi,Junzhe Zhang,Xue Song,Kennard Yanting Chan,Jiachun Pan,Weijia Wu,Mingze Zhou,Wang Lin,Kaihang Pan,Saining Zhang,Liyu Jia,Wentao Hu,Wei Zhao,Hanwang Zhang
発行日 2025-05-12 13:19:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク