Towards End-to-End Generative Modeling of Long Videos with Memory-Efficient Bidirectional Transformers

要約

自己回帰トランスフォーマーはビデオ生成において目覚ましい成功を収めています。
ただし、トランスフォーマーは、自己注意の二次複雑さのため、ビデオの長期依存関係を直接学習することができず、本質的に、自己回帰プロセスによる推論時間の遅さとエラー伝播に悩まされます。
この論文では、ビデオの長期依存関係のエンドツーエンド学習と高速推論のためのメモリ効率の高い双方向トランスフォーマー (MeBT) を提案します。
双方向変換器の最近の進歩に基づいて、私たちの方法は、部分的に観察されたパッチからビデオの時空間ボリューム全体を並行してデコードすることを学習します。
提案されたトランスフォーマーは、観察可能なコンテキスト トークンを固定数の潜在トークンに投影し、クロス アテンションを通じてマスクされたトークンをデコードするように条件付けすることにより、エンコードとデコードの両方で線形な時間計算量を実現します。
線形複雑さと双方向モデリングによって強化された私たちの方法は、品質と速度の両方で適度に長いビデオを生成する際に、自己回帰型 Transformer に比べて大幅な改善を示しています。
ビデオとコードは https://sites.google.com/view/mebt-cvpr2023 で入手できます。

要約(オリジナル)

Autoregressive transformers have shown remarkable success in video generation. However, the transformers are prohibited from directly learning the long-term dependency in videos due to the quadratic complexity of self-attention, and inherently suffering from slow inference time and error propagation due to the autoregressive process. In this paper, we propose Memory-efficient Bidirectional Transformer (MeBT) for end-to-end learning of long-term dependency in videos and fast inference. Based on recent advances in bidirectional transformers, our method learns to decode the entire spatio-temporal volume of a video in parallel from partially observed patches. The proposed transformer achieves a linear time complexity in both encoding and decoding, by projecting observable context tokens into a fixed number of latent tokens and conditioning them to decode the masked tokens through the cross-attention. Empowered by linear complexity and bidirectional modeling, our method demonstrates significant improvement over the autoregressive Transformers for generating moderately long videos in both quality and speed. Videos and code are available at https://sites.google.com/view/mebt-cvpr2023 .

arxiv情報

著者 Jaehoon Yoo,Semin Kim,Doyup Lee,Chiheon Kim,Seunghoon Hong
発行日 2023-05-31 15:02:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク