OmniTokenizer: A Joint Image-Video Tokenizer for Visual Generation

要約

Tokenizer は、複雑な視覚データをコンパクトな潜在空間にマッピングするトランスレーターとして機能し、視覚生成モデルの中核に位置します。
既存のトークナイザーが画像またはビデオ入力に合わせて調整されているという発見に基づいて、このホワイトペーパーでは、画像とビデオを共同トークン化するためのトランスフォーマーベースのトークナイザーである OmniTokenizer を紹介します。
OmniTokenizer は、時空間分離アーキテクチャで設計されており、空間的および時間的モデリングのためにウィンドウと因果的注意を統合します。
画像データとビデオ データの相補的な性質を活用するために、私たちはさらに、OmniTokenizer を固定解像度の画像データでトレーニングして空間エンコード能力を開発し、次に複数の解像度の画像データとビデオ データで共同トレーニングして、
時間的な力学を学びます。
OmniTokenizer は初めて、統一されたフレームワーク内で画像とビデオの両方の入力を処理し、それらの相乗効果を実現する可能性を証明しました。
広範な実験により、OmniTokenizer がさまざまな画像およびビデオ データセットで最先端 (SOTA) 再構成パフォーマンスを達成することが実証されています。たとえば、ImageNet では 1.11 再構成 FID、UCF-101 では 42 再構成 FVD で、以前の SOTA 手法を 13% 上回っています。
それぞれ26%。
さらに、OmniTokenizer と統合すると、言語モデルベースのアプローチと拡散モデルの両方が高度な視覚合成パフォーマンスを実現できることも示し、私たちの手法の優位性と多用途性を強調します。
コードは https://github.com/FoundationVision/OmniTokenizer で入手できます。

要約(オリジナル)

Tokenizer, serving as a translator to map the intricate visual data into a compact latent space, lies at the core of visual generative models. Based on the finding that existing tokenizers are tailored to image or video inputs, this paper presents OmniTokenizer, a transformer-based tokenizer for joint image and video tokenization. OmniTokenizer is designed with a spatial-temporal decoupled architecture, which integrates window and causal attention for spatial and temporal modeling. To exploit the complementary nature of image and video data, we further propose a progressive training strategy, where OmniTokenizer is first trained on image data on a fixed resolution to develop the spatial encoding capacity and then jointly trained on image and video data on multiple resolutions to learn the temporal dynamics. OmniTokenizer, for the first time, handles both image and video inputs within a unified framework and proves the possibility of realizing their synergy. Extensive experiments demonstrate that OmniTokenizer achieves state-of-the-art (SOTA) reconstruction performance on various image and video datasets, e.g., 1.11 reconstruction FID on ImageNet and 42 reconstruction FVD on UCF-101, beating the previous SOTA methods by 13% and 26%, respectively. Additionally, we also show that when integrated with OmniTokenizer, both language model-based approaches and diffusion models can realize advanced visual synthesis performance, underscoring the superiority and versatility of our method. Code is available at https://github.com/FoundationVision/OmniTokenizer.

arxiv情報

著者 Junke Wang,Yi Jiang,Zehuan Yuan,Binyue Peng,Zuxuan Wu,Yu-Gang Jiang
発行日 2024-06-13 17:59:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク