VTBench: Evaluating Visual Tokenizers for Autoregressive Image Generation

要約

自己回帰(AR)モデルは最近、画像生成で強力なパフォーマンスを示しています。ここで、重要なコンポーネントは、連続したピクセル入力を離散トークンシーケンスにマップする視覚トークン剤(VT)です。
VTの品質は、ARモデルのパフォーマンスの上限をほぼ定義しています。
ただし、現在の離散VTSは、連続変動自動エンコーダー(VAE)に大きく該当し、画像の再構成が低下し、詳細とテキストの保存が不十分になります。
既存のベンチマークは、VTパフォーマンスを分離することなく、エンドツーエンドの生成品質に焦点を当てています。
このギャップに対処するために、VTBenchを導入します。これは、画像再構成、詳細保存、テキスト保存の3つのコアタスクにわたってVTを体系的に評価し、多様な評価シナリオをカバーする包括的なベンチマークです。
一連のメトリックを使用して、最先端のVTSを体系的に評価して、再構築された画像の品質を評価します。
私たちの調査結果は、特に空間構造とセマンティックの詳細を維持する際に、個別のVTSと比較して、連続的なVAEが優れた視覚表現を生成することを明らかにしています。
対照的に、離散VTによって生成される劣化した表現は、しばしば歪んだ再構成、微調整されたテクスチャの喪失、およびテキストとオブジェクトの完全性を維持する障害につながります。
さらに、GPT-4O画像生成に関する実験を実施し、その潜在的なARの性質について議論し、視覚トークン化の役割に関する新しい洞察を提供します。
ベンチマークとコードベースを公開して、さらなる研究をサポートし、コミュニティに強力で汎用のオープンソースVTを開発するよう呼びかけます。

要約(オリジナル)

Autoregressive (AR) models have recently shown strong performance in image generation, where a critical component is the visual tokenizer (VT) that maps continuous pixel inputs to discrete token sequences. The quality of the VT largely defines the upper bound of AR model performance. However, current discrete VTs fall significantly behind continuous variational autoencoders (VAEs), leading to degraded image reconstructions and poor preservation of details and text. Existing benchmarks focus on end-to-end generation quality, without isolating VT performance. To address this gap, we introduce VTBench, a comprehensive benchmark that systematically evaluates VTs across three core tasks: Image Reconstruction, Detail Preservation, and Text Preservation, and covers a diverse range of evaluation scenarios. We systematically assess state-of-the-art VTs using a set of metrics to evaluate the quality of reconstructed images. Our findings reveal that continuous VAEs produce superior visual representations compared to discrete VTs, particularly in retaining spatial structure and semantic detail. In contrast, the degraded representations produced by discrete VTs often lead to distorted reconstructions, loss of fine-grained textures, and failures in preserving text and object integrity. Furthermore, we conduct experiments on GPT-4o image generation and discuss its potential AR nature, offering new insights into the role of visual tokenization. We release our benchmark and codebase publicly to support further research and call on the community to develop strong, general-purpose open-source VTs.

arxiv情報

著者 Huawei Lin,Tong Geng,Zhaozhuo Xu,Weijie Zhao
発行日 2025-05-19 17:59:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク