要約
既存の視覚トークン化は、視覚トークンがさまざまなタスク、例えば画像生成や視覚的質問の回答にわたってよく一般化できると暗黙的に仮定することで、視力トークンザーの最適化を分離します。
低レベルの再構成のために最適化された視力トークナザーは、さまざまな表現とセマンティクスを必要とする下流タスクから下流タスクから下流タスクです。
この分離されたパラダイムは、重大な不整合を導入します。視力トークン化の喪失は、ターゲットタスクの表現ボトルネックになる可能性があります。
たとえば、特定の画像のテキストをトークン化するエラーは、それらを認識または生成する際の結果が悪い結果につながります。
これに対処するために、視力トークン化とターゲットの自己回帰タスクの間の共同最適化を可能にするエンドツーエンドの視力トークナイザーチューニングアプローチであるETTを提案します。
凍結視力トークナイザーから離散インデックスのみを使用する以前の自己回帰モデルとは異なり、ETTはトークナイザーコードブックの視覚埋め込みを活用し、再構成とキャプションの両方の目的でエンドツーエンドの視力トークンザーを最適化します。
ETTは、アーキテクチャの変更を最小限に抑えて、既存のトレーニングパイプラインにシームレスに統合できます。
ETTは、採用されている大規模な言語モデルの元のコードブックやアーキテクチャを調整することなく、実装および統合が簡単です。
広範な実験では、提案されたエンドツーエンドの視力トークネイザーチューニングが、凍結トークナイザーベースラインと比較して、マルチモーダルの理解と視覚生成タスクの場合、元の再構成能力を維持しながら、マルチモーダルの理解と視覚生成タスクの2〜6%のロックを解除することを示しています。
この非常にシンプルで強力な方法が、画像の生成と理解に加えて、マルチモーダルファンデーションモデルに力を与えることを願っています。
要約(オリジナル)
Existing vision tokenization isolates the optimization of vision tokenizers from downstream training, implicitly assuming the visual tokens can generalize well across various tasks, e.g., image generation and visual question answering. The vision tokenizer optimized for low-level reconstruction is agnostic to downstream tasks requiring varied representations and semantics. This decoupled paradigm introduces a critical misalignment: The loss of the vision tokenization can be the representation bottleneck for target tasks. For example, errors in tokenizing text in a given image lead to poor results when recognizing or generating them. To address this, we propose ETT, an end-to-end vision tokenizer tuning approach that enables joint optimization between vision tokenization and target autoregressive tasks. Unlike prior autoregressive models that use only discrete indices from a frozen vision tokenizer, ETT leverages the visual embeddings of the tokenizer codebook, and optimizes the vision tokenizers end-to-end with both reconstruction and caption objectives. ETT can be seamlessly integrated into existing training pipelines with minimal architecture modifications. Our ETT is simple to implement and integrate, without the need to adjust the original codebooks or architectures of the employed large language models. Extensive experiments demonstrate that our proposed end-to-end vision tokenizer tuning unlocks significant performance gains, i.e., 2-6% for multimodal understanding and visual generation tasks compared to frozen tokenizer baselines, while preserving the original reconstruction capability. We hope this very simple and strong method can empower multimodal foundation models besides image generation and understanding.
arxiv情報
著者 | Wenxuan Wang,Fan Zhang,Yufeng Cui,Haiwen Diao,Zhuoyan Luo,Huchuan Lu,Jing Liu,Xinlong Wang |
発行日 | 2025-05-15 17:59:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google