HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models

要約

テキストからビデオへの生成は、動画データの固有の複雑さにより、重大な課題をもたらします。
生成中に、言語トークンとビジョントークンの間に追加の冗長性、突然の変動、およびドメインギャップを導入します。
これらの課題に対処するには、ビデオデータを効率的にエンコードできる効果的なビデオトークナイザーが必要であり、テキストとビジョンの間の重要なブリッジとして機能する重要なセマンティックおよび空間的情報を保存します。
VQ-Vae-2での観察と従来のアニメーションのワークフローに触発された私たちは、階層的なトークンザーを使用したテキストからビデオへの生成のためにHitvideoを提案します。
多層離散トークンフレームワークを備えた3D因果VAEを利用して、ビデオコンテンツを階層構造のコードブックにエンコードします。
高層層は、圧縮率が高いセマンティック情報をキャプチャしますが、下層層はきちんとした時空の詳細に焦点を当て、圧縮効率と再構築品質のバランスをとっています。
私たちのアプローチは、より長いビデオシーケンス(8秒、64フレーム)を効率的にエンコードし、競合的再構成の品質を維持しながら、ベースライントーナイザーと比較してピクセルあたりのビット(BPP)を約70 \%削減します。
テキストからビデオへのタスクにおける高圧縮セマンティックトークンの利点を強調しながら、圧縮と再構築の間のトレードオフを調査します。
Hitvideoは、テキストとビデオの生成タスクにおける既存のビデオトーナイザーの潜在的な制限に対処し、より高い圧縮比を目指し、言語ガイダンスの下でLLMSモデリングを簡素化し、ビデオ生成にテキストを進めるためのスケーラブルで有望なフレームワークを提供することを目指しています。
デモページ:https://ziqinzhou66.github.io/project/hitvideo。

要約(オリジナル)

Text-to-video generation poses significant challenges due to the inherent complexity of video data, which spans both temporal and spatial dimensions. It introduces additional redundancy, abrupt variations, and a domain gap between language and vision tokens while generation. Addressing these challenges requires an effective video tokenizer that can efficiently encode video data while preserving essential semantic and spatiotemporal information, serving as a critical bridge between text and vision. Inspired by the observation in VQ-VAE-2 and workflows of traditional animation, we propose HiTVideo for text-to-video generation with hierarchical tokenizers. It utilizes a 3D causal VAE with a multi-layer discrete token framework, encoding video content into hierarchically structured codebooks. Higher layers capture semantic information with higher compression, while lower layers focus on fine-grained spatiotemporal details, striking a balance between compression efficiency and reconstruction quality. Our approach efficiently encodes longer video sequences (e.g., 8 seconds, 64 frames), reducing bits per pixel (bpp) by approximately 70\% compared to baseline tokenizers, while maintaining competitive reconstruction quality. We explore the trade-offs between compression and reconstruction, while emphasizing the advantages of high-compressed semantic tokens in text-to-video tasks. HiTVideo aims to address the potential limitations of existing video tokenizers in text-to-video generation tasks, striving for higher compression ratios and simplify LLMs modeling under language guidance, offering a scalable and promising framework for advancing text to video generation. Demo page: https://ziqinzhou66.github.io/project/HiTVideo.

arxiv情報

著者 Ziqin Zhou,Yifan Yang,Yuqing Yang,Tianyu He,Houwen Peng,Kai Qiu,Qi Dai,Lili Qiu,Chong Luo,Lingqiao Liu
発行日 2025-03-14 15:36:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク