Learnings from Scaling Visual Tokenizers for Reconstruction and Generation

要約

自動エンコーディングによる視覚的なトークン化により、ピクセルを潜在空間に圧縮することで、最先端の画像およびビデオ生成モデルが強化されます。
Transformer ベースのジェネレーターのスケーリングは最近の進歩の中心となっていますが、トークナイザー コンポーネント自体がスケーリングされることはほとんどなく、オート エンコーダーの設計の選択が再構成の目的と下流の生成パフォーマンスの両方にどのように影響するかについては未解決の疑問が残されています。
私たちの研究は、この空白を埋めるためにオートエンコーダーのスケーリングを調査することを目的としています。
この探索を容易にするために、典型的な畳み込みバックボーンをトークン化用の強化された Vision Transformer アーキテクチャ (ViTok) に置き換えます。
ImageNet-1K をはるかに超える大規模な画像およびビデオ データセットで ViTok をトレーニングし、トークナイザーのスケーリングに関するデータの制約を取り除きます。
まず、オートエンコーダのボトルネックのスケーリングが再構築と生成の両方にどのような影響を与えるかを調査し、再構築との相関性は高いものの、生成との関係はより複雑であることを発見しました。
次に、オートエンコーダのエンコーダとデコーダを個別にスケーリングした場合の再構成と生成のパフォーマンスへの影響を調査しました。
重要なことは、エンコーダーをスケーリングすると再構成または生成のいずれかで最小限の利益しか得られないのに対し、デコーダーをスケーリングすると再構成が向上しますが、生成の利点は混在していることがわかります。
私たちの探索に基づいて、ViTok を軽量オート エンコーダとして設計し、ImageNet-1K および COCO 再構築タスク (256p および 512p) で最先端のオート エンコーダと競争力のあるパフォーマンスを達成しながら、16 で既存のオート エンコーダを上回ります。
– UCF-101 のフレーム 128p ビデオ再構築。すべての FLOP が 2 ~ 5 倍少なくなります。
Diffusion Transformers と統合すると、ViTok は ImageNet-1K の画像生成で競争力のあるパフォーマンスを実証し、UCF-101 でのクラス条件付きビデオ生成の新しい最先端のベンチマークを設定します。

要約(オリジナル)

Visual tokenization via auto-encoding empowers state-of-the-art image and video generative models by compressing pixels into a latent space. Although scaling Transformer-based generators has been central to recent advances, the tokenizer component itself is rarely scaled, leaving open questions about how auto-encoder design choices influence both its objective of reconstruction and downstream generative performance. Our work aims to conduct an exploration of scaling in auto-encoders to fill in this blank. To facilitate this exploration, we replace the typical convolutional backbone with an enhanced Vision Transformer architecture for Tokenization (ViTok). We train ViTok on large-scale image and video datasets far exceeding ImageNet-1K, removing data constraints on tokenizer scaling. We first study how scaling the auto-encoder bottleneck affects both reconstruction and generation — and find that while it is highly correlated with reconstruction, its relationship with generation is more complex. We next explored the effect of separately scaling the auto-encoders’ encoder and decoder on reconstruction and generation performance. Crucially, we find that scaling the encoder yields minimal gains for either reconstruction or generation, while scaling the decoder boosts reconstruction but the benefits for generation are mixed. Building on our exploration, we design ViTok as a lightweight auto-encoder that achieves competitive performance with state-of-the-art auto-encoders on ImageNet-1K and COCO reconstruction tasks (256p and 512p) while outperforming existing auto-encoders on 16-frame 128p video reconstruction for UCF-101, all with 2-5x fewer FLOPs. When integrated with Diffusion Transformers, ViTok demonstrates competitive performance on image generation for ImageNet-1K and sets new state-of-the-art benchmarks for class-conditional video generation on UCF-101.

arxiv情報

著者 Philippe Hansen-Estruch,David Yan,Ching-Yao Chung,Orr Zohar,Jialiang Wang,Tingbo Hou,Tao Xu,Sriram Vishwanath,Peter Vajda,Xinlei Chen
発行日 2025-01-16 18:59:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, I.2.10 パーマリンク