要約
自己回帰 (AR) 生成モデルの現在のビデオ トークン化方法の制限を克服するために設計された新しいビデオ トークナイザー LARP を紹介します。
ローカルのビジュアル パッチを個別のトークンに直接エンコードする従来のパッチワイズ トークナイザーとは異なり、LARP では、学習された一連の全体的クエリを使用してビジュアル コンテンツから情報を収集する全体的トークン化スキームが導入されています。
この設計により、LARP はローカルのパッチレベルの情報に限定されるのではなく、よりグローバルでセマンティックな表現をキャプチャできるようになります。
さらに、任意の数の個別トークンをサポートすることで柔軟性を提供し、タスクの特定の要件に基づいて適応的かつ効率的なトークン化を可能にします。
離散トークン空間を下流の AR 生成タスクと調整するために、LARP は、離散潜在空間上の次のトークンを予測するトレーニング時の事前モデルとして軽量 AR トランスフォーマーを統合します。
トレーニング中に以前のモデルを組み込むことにより、LARP は、ビデオ再構築のために最適化されるだけでなく、自己回帰生成をより促進する方法で構造化された潜在空間を学習します。
さらに、このプロセスは個別のトークンの順序を定義し、トレーニング中にそれらを最適な構成に向けて徐々に推進し、推論時によりスムーズで正確な AR 生成を保証します。
包括的な実験により、LARP の強力なパフォーマンスが実証され、UCF101 クラス条件付きビデオ生成ベンチマークで最先端の FVD を達成しました。
LARP は AR モデルとビデオの互換性を強化し、統一された高忠実度のマルチモーダル大規模言語モデル (MLLM) を構築する可能性を広げます。
要約(オリジナル)
We present LARP, a novel video tokenizer designed to overcome limitations in current video tokenization methods for autoregressive (AR) generative models. Unlike traditional patchwise tokenizers that directly encode local visual patches into discrete tokens, LARP introduces a holistic tokenization scheme that gathers information from the visual content using a set of learned holistic queries. This design allows LARP to capture more global and semantic representations, rather than being limited to local patch-level information. Furthermore, it offers flexibility by supporting an arbitrary number of discrete tokens, enabling adaptive and efficient tokenization based on the specific requirements of the task. To align the discrete token space with downstream AR generation tasks, LARP integrates a lightweight AR transformer as a training-time prior model that predicts the next token on its discrete latent space. By incorporating the prior model during training, LARP learns a latent space that is not only optimized for video reconstruction but is also structured in a way that is more conducive to autoregressive generation. Moreover, this process defines a sequential order for the discrete tokens, progressively pushing them toward an optimal configuration during training, ensuring smoother and more accurate AR generation at inference time. Comprehensive experiments demonstrate LARP’s strong performance, achieving state-of-the-art FVD on the UCF101 class-conditional video generation benchmark. LARP enhances the compatibility of AR models with videos and opens up the potential to build unified high-fidelity multimodal large language models (MLLMs).
arxiv情報
著者 | Hanyu Wang,Saksham Suri,Yixuan Ren,Hao Chen,Abhinav Shrivastava |
発行日 | 2024-10-28 17:57:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google