Video Prediction by Efficient Transformers

要約

ビデオ予測は、幅広いアプリケーションを持つ挑戦的なコンピューター ビジョン タスクです。
この作業では、ビデオ予測用の Transformer ベースのモデルの新しいファミリを紹介します。
最初に、標準的なトランスフォーマーの複雑さを軽減するために、効率的な局所的な時空間分離アテンションメカニズムが提案されています。
次に、新しい効率的な Transformer に基づいて、完全自己回帰モデル、部分自己回帰モデル、および非自己回帰モデルが開発されます。
部分自己回帰モデルのパフォーマンスは完全自己回帰モデルと同様ですが、推論速度は高速です。
非自己回帰モデルは、より速い推論速度を実現するだけでなく、自己回帰モデルの品質低下の問題を軽減しますが、学習のために追加のパラメーターと損失関数が必要です。
同じ注意メカニズムを考慮して、提案された 3 つのビデオ予測バリアントを比較するための包括的な調査を実施しました。
実験は、提案されたビデオ予測モデルが、より複雑な最先端の畳み込み LSTM ベースのモデルと競合することを示しています。
ソース コードは https://github.com/XiYe20/VPTR で入手できます。

要約(オリジナル)

Video prediction is a challenging computer vision task that has a wide range of applications. In this work, we present a new family of Transformer-based models for video prediction. Firstly, an efficient local spatial-temporal separation attention mechanism is proposed to reduce the complexity of standard Transformers. Then, a full autoregressive model, a partial autoregressive model and a non-autoregressive model are developed based on the new efficient Transformer. The partial autoregressive model has a similar performance with the full autoregressive model but a faster inference speed. The non-autoregressive model not only achieves a faster inference speed but also mitigates the quality degradation problem of the autoregressive counterparts, but it requires additional parameters and loss function for learning. Given the same attention mechanism, we conducted a comprehensive study to compare the proposed three video prediction variants. Experiments show that the proposed video prediction models are competitive with more complex state-of-the-art convolutional-LSTM based models. The source code is available at https://github.com/XiYe20/VPTR.

arxiv情報

著者 Xi Ye,Guillaume-Alexandre Bilodeau
発行日 2022-12-12 16:46:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク