Efficient Long Video Tokenization via Coordinate-based Patch Reconstruction

要約

長いビデオを処理できるビジョン モデルをトレーニングする場合、ビデオの効率的なトークン化が依然として課題です。
有望な方向性の 1 つは、長いビデオ クリップをエンコードできるトークナイザーを開発することです。これにより、トークナイザーはビデオの時間的一貫性をトークン化にうまく利用できるようになります。
ただし、既存のトークナイザーを長いビデオでトレーニングすると、すべてのフレームを一度に再構築するようにトレーニングされるため、多くの場合、膨大なトレーニング コストが発生します。
このペーパーでは、最近の 3D 生成モデルの進歩に触発され、座標ベースの表現から入力ビデオの対応するパッチへのマッピングを学習するビデオ トークナイザーである CoordTok を紹介します。
特に、CoordTok はビデオを因数分解されたトライプレーン表現にエンコードし、ランダムにサンプリングされた $(x,y,t)$ 座標に対応するパッチを再構築します。
これにより、過剰なトレーニング リソースを必要とせずに、長いビデオで大規模なトークナイザー モデルを直接トレーニングすることができます。
私たちの実験では、CoordTok が長いビデオ クリップをエンコードするためのトークンの数を大幅に削減できることがわかりました。
たとえば、CoordTok は 128$\times$128 の解像度で 128 フレームのビデオを 1280 トークンにエンコードできますが、ベースラインで同様の再構築品質を達成するには 6144 または 8192 トークンが必要です。
さらに、この効率的なビデオ トークン化により、一度に 128 フレームを生成できる拡散変換器のメモリ効率の高いトレーニングが可能になることを示します。

要約(オリジナル)

Efficient tokenization of videos remains a challenge in training vision models that can process long videos. One promising direction is to develop a tokenizer that can encode long video clips, as it would enable the tokenizer to leverage the temporal coherence of videos better for tokenization. However, training existing tokenizers on long videos often incurs a huge training cost as they are trained to reconstruct all the frames at once. In this paper, we introduce CoordTok, a video tokenizer that learns a mapping from coordinate-based representations to the corresponding patches of input videos, inspired by recent advances in 3D generative models. In particular, CoordTok encodes a video into factorized triplane representations and reconstructs patches that correspond to randomly sampled $(x,y,t)$ coordinates. This allows for training large tokenizer models directly on long videos without requiring excessive training resources. Our experiments show that CoordTok can drastically reduce the number of tokens for encoding long video clips. For instance, CoordTok can encode a 128-frame video with 128$\times$128 resolution into 1280 tokens, while baselines need 6144 or 8192 tokens to achieve similar reconstruction quality. We further show that this efficient video tokenization enables memory-efficient training of a diffusion transformer that can generate 128 frames at once.

arxiv情報

著者 Huiwon Jang,Sihyun Yu,Jinwoo Shin,Pieter Abbeel,Younggyo Seo
発行日 2024-11-26 14:03:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク