Long Movie Clip Classification with State-Space Video Models

要約

最近の映像認識モデルの多くは、短い映像クリップ(例えば、5-10秒の長さ)に対して動作するように設計されている。したがって、このようなモデルを、一般に高度な長距離時間推論を必要とする長時間の動画像理解タスクに適用することは困難である。最近導入された動画像変換器は、長距離の時間的自己注意を用いることで、この問題に部分的に対処しています。しかし、自己注意の2次的なコストのため、このようなモデルはしばしばコストがかかり、実用的でない。その代わりに、我々は自己注意と最近導入された構造化状態空間シーケンス(S4)層の長所を組み合わせた効率的な長距離ビデオモデルであるViS4merを提案する。このモデルでは、短距離時空間特徴抽出のために標準的なトランスフォーマーエンコーダを用い、その後の長距離時空間推論のためにマルチスケール時空間S4デコーダを用いる。各デコーダ層で時空間特徴の分解能とチャンネル次元を徐々に小さくすることで、ViS4merはビデオ内の複雑な長距離時空間依存性を学習する。さらに、ViS4merは、対応する純粋な自己注意ベースのモデルより$2.63times$高速で、$8times$少ないGPUメモリを必要とします。さらに、ViS4merはLong Video Understanding (LVU) ベンチマークにおいて、$9$の長編映画ビデオの分類タスクのうち$6$で最先端の結果を達成した。さらに、BreakfastとCOIN procedural activityデータセットにおいて、我々のアプローチが他のドメインにもうまく一般化できることを示す。コードは、https://github.com/md-mohaiminul/ViS4mer で公開されています。

要約(オリジナル)

Most modern video recognition models are designed to operate on short video clips (e.g., 5-10s in length). Thus, it is challenging to apply such models to long movie understanding tasks, which typically require sophisticated long-range temporal reasoning. The recently introduced video transformers partially address this issue by using long-range temporal self-attention. However, due to the quadratic cost of self-attention, such models are often costly and impractical to use. Instead, we propose ViS4mer, an efficient long-range video model that combines the strengths of self-attention and the recently introduced structured state-space sequence (S4) layer. Our model uses a standard Transformer encoder for short-range spatiotemporal feature extraction, and a multi-scale temporal S4 decoder for subsequent long-range temporal reasoning. By progressively reducing the spatiotemporal feature resolution and channel dimension at each decoder layer, ViS4mer learns complex long-range spatiotemporal dependencies in a video. Furthermore, ViS4mer is $2.63\times$ faster and requires $8\times$ less GPU memory than the corresponding pure self-attention-based model. Additionally, ViS4mer achieves state-of-the-art results in $6$ out of $9$ long-form movie video classification tasks on the Long Video Understanding (LVU) benchmark. Furthermore, we show that our approach successfully generalizes to other domains, achieving competitive results on the Breakfast and the COIN procedural activity datasets. The code is publicly available at: https://github.com/md-mohaiminul/ViS4mer.

arxiv情報

著者 Md Mohaiminul Islam,Gedas Bertasius
発行日 2023-01-04 11:54:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク