Long-term Leap Attention, Short-term Periodic Shift for Video Classification

要約

ビデオトランスフォーマーは、静的ビジョントランスフォーマーよりも計算負荷が大きくなります。これは、前者が2次複雑度$(T ^ 2N ^ 2)$の現在の注目の下で、後者よりも$T$倍長いシーケンスを処理するためです。
既存の作品は、時間軸を空間軸の単純な拡張として扱い、時間的冗長性を利用せずに、一般的なプーリングまたはローカルウィンドウ処理のいずれかによって時空間シーケンスを短縮することに焦点を当てています。
ただし、ビデオには当然、隣接するフレーム間に冗長な情報が含まれています。
これにより、視覚的に類似したフレームへの注意を拡張して抑制することができる可能性があります。
この仮説に基づいて、長期の “ \ textbf {\ textit {Leap Attention}}”(LA)、短期の “ \ textbf {\ textit {Periodic Shift}}”(LAPSを提案します。
\ textit {P}-シフト)ビデオトランスフォーマー用のモジュールで、複雑さは$(2TN ^ 2)$です。
具体的には、「LA」は長期フレームをペアにグループ化し、注意を介して各個別のペアをリファクタリングします。
“ \ textit {P} -Shift”は、一時的な隣接要素間で機能を交換して、短期間のダイナミクスの喪失に直面します。
バニラ2DアテンションをLAPSに置き換えることで、静的トランスフォーマーをビデオトランスフォーマーに適合させることができ、余分なパラメーターはゼロで、計算のオーバーヘッドは無視できます($ \ sim $ 2.6 \%)。
標準のKinetics-400ベンチマークでの実験は、LAPS変圧器が、CNNと変圧器SOTAの間で、精度、FLOP、およびパラメーターの点で競争力のあるパフォーマンスを達成できることを示しています。
プロジェクトを\sloppy\ href{https://github.com/VideoNetworks/LAPS-transformer}{\textit{\color{magenta}{https://github.com/VideoNetworks/LAPS-transformer}でオープンソース化します。
}}。

要約(オリジナル)

Video transformer naturally incurs a heavier computation burden than a static vision transformer, as the former processes $T$ times longer sequence than the latter under the current attention of quadratic complexity $(T^2N^2)$. The existing works treat the temporal axis as a simple extension of spatial axes, focusing on shortening the spatio-temporal sequence by either generic pooling or local windowing without utilizing temporal redundancy. However, videos naturally contain redundant information between neighboring frames; thereby, we could potentially suppress attention on visually similar frames in a dilated manner. Based on this hypothesis, we propose the LAPS, a long-term “\textbf{\textit{Leap Attention}}” (LA), short-term “\textbf{\textit{Periodic Shift}}” (\textit{P}-Shift) module for video transformers, with $(2TN^2)$ complexity. Specifically, the “LA” groups long-term frames into pairs, then refactors each discrete pair via attention. The “\textit{P}-Shift” exchanges features between temporal neighbors to confront the loss of short-term dynamics. By replacing a vanilla 2D attention with the LAPS, we could adapt a static transformer into a video one, with zero extra parameters and neglectable computation overhead ($\sim$2.6\%). Experiments on the standard Kinetics-400 benchmark demonstrate that our LAPS transformer could achieve competitive performances in terms of accuracy, FLOPs, and Params among CNN and transformer SOTAs. We open-source our project in \sloppy \href{https://github.com/VideoNetworks/LAPS-transformer}{\textit{\color{magenta}{https://github.com/VideoNetworks/LAPS-transformer}}} .

arxiv情報

著者 Hao Zhang,Lechao Cheng,Yanbin Hao,Chong-Wah Ngo
発行日 2022-07-12 13:30:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク