Video Transformers: A Survey

要約

Transformer モデルは、長距離相互作用の処理に大きな成功を収めており、ビデオをモデリングするための有望なツールとなっています。
ただし、それらには誘導性バイアスがなく、入力長に応じて 2 次的にスケーリングされます。
これらの制限は、時間次元によって導入された高次元を扱う場合にさらに悪化します。
Transformers for Vision の進歩を分析する調査はありますが、ビデオ固有の設計の詳細な分析に焦点を当てた調査はありません。
今回の調査では、トランスフォーマーをモデル映像に活用した作品の主な貢献度と傾向を分析。
具体的には、最初に入力レベルでビデオがどのように処理されるかを掘り下げます。
次に、ビデオをより効率的に処理し、冗長性を減らし、有用な誘導バイアスを再導入し、長期的な時間的ダイナミクスをキャプチャするために行われたアーキテクチャの変更を研究します。
さらに、さまざまなトレーニング体制の概要を説明し、ビデオの効果的な自己管理型学習戦略を探ります。
最後に、ビデオ トランスフォーマー (アクション分類) の最も一般的なベンチマークでパフォーマンス比較を行い、計算の複雑さが少なくても 3D ConvNets よりも優れていることがわかりました。

要約(オリジナル)

Transformer models have shown great success handling long-range interactions, making them a promising tool for modeling video. However, they lack inductive biases and scale quadratically with input length. These limitations are further exacerbated when dealing with the high dimensionality introduced by the temporal dimension. While there are surveys analyzing the advances of Transformers for vision, none focus on an in-depth analysis of video-specific designs. In this survey, we analyze the main contributions and trends of works leveraging Transformers to model video. Specifically, we delve into how videos are handled at the input level first. Then, we study the architectural changes made to deal with video more efficiently, reduce redundancy, re-introduce useful inductive biases, and capture long-term temporal dynamics. In addition, we provide an overview of different training regimes and explore effective self-supervised learning strategies for video. Finally, we conduct a performance comparison on the most common benchmark for Video Transformers (i.e., action classification), finding them to outperform 3D ConvNets even with less computational complexity.

arxiv情報

著者 Javier Selva,Anders S. Johansen,Sergio Escalera,Kamal Nasrollahi,Thomas B. Moeslund,Albert Clapés
発行日 2023-02-13 13:49:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク