要約
ビデオ コンテンツをコンパクトな潜在トークンにエンコードすることは、ピクセル レベルの表現における固有の冗長性に対処する必要性により、ビデオの生成と理解における基本的なステップとなっています。
その結果、ビデオ中心の研究が注目を集めるにつれて、高性能のオープンソースビデオトークナイザーに対する需要が高まっています。
連続トークン化と離散トークン化の両方で最先端のパフォーマンスを提供する多用途のビデオ トークナイザーである VidTok を紹介します。
VidTok には、既存のアプローチに比べていくつかの重要な進歩が組み込まれています。1) 畳み込み層やアップ/ダウンサンプリング モジュールなどのモデル アーキテクチャ。
2) 従来のベクトル量子化 (VQ) に一般的に関連するトレーニングの不安定性とコードブックの崩壊に対処するために、有限スカラー量子化 (FSQ) を離散ビデオ トークン化に統合します。
3) 2 段階のトレーニング プロセスや低減されたフレーム レートの使用など、トレーニング戦略の改善。
これらの進歩を統合することにより、VidTok は既存の方法に比べて大幅な改善を達成し、標準化された評価設定の下で PSNR、SSIM、LPIPS、FVD を含む複数の指標にわたって優れたパフォーマンスを実証します。
要約(オリジナル)
Encoding video content into compact latent tokens has become a fundamental step in video generation and understanding, driven by the need to address the inherent redundancy in pixel-level representations. Consequently, there is a growing demand for high-performance, open-source video tokenizers as video-centric research gains prominence. We introduce VidTok, a versatile video tokenizer that delivers state-of-the-art performance in both continuous and discrete tokenizations. VidTok incorporates several key advancements over existing approaches: 1) model architecture such as convolutional layers and up/downsampling modules; 2) to address the training instability and codebook collapse commonly associated with conventional Vector Quantization (VQ), we integrate Finite Scalar Quantization (FSQ) into discrete video tokenization; 3) improved training strategies, including a two-stage training process and the use of reduced frame rates. By integrating these advancements, VidTok achieves substantial improvements over existing methods, demonstrating superior performance across multiple metrics, including PSNR, SSIM, LPIPS, and FVD, under standardized evaluation settings.
arxiv情報
著者 | Anni Tang,Tianyu He,Junliang Guo,Xinle Cheng,Li Song,Jiang Bian |
発行日 | 2024-12-17 16:27:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google