Stand-Alone Inter-Frame Attention in Video Models

要約

ビデオの独自性としてのモーションは、ビデオ理解モデルの開発に不可欠です。
最新の深層学習モデルは、時空間3D畳み込みを実行するか、3D畳み込みを空間および時間畳み込みに別々に因数分解するか、時間次元に沿って自己注意を計算することにより、モーションを活用します。
このような成功の背後にある暗黙の前提は、連続するフレームにわたるフィーチャマップを適切に集約できることです。
それにもかかわらず、特に大きな変形のある領域では、この仮定が常に当てはまるとは限りません。
この論文では、フレーム間注意ブロックの新しいレシピ、すなわちスタンドアロンフレーム間注意(SIFA)を提示します。これは、フレーム間の変形を新たに掘り下げて、各空間位置での局所的な自己注意を推定します。
技術的には、SIFAは、2つのフレーム間の差によってオフセット予測を再スケーリングすることにより、変形可能な設計を再構築します。
現在のフレームの各空間位置をクエリとして、次のフレームのローカルに変形可能なネイバーがキー/値と見なされます。
次に、SIFAは、時間的集計の値の加重平均に対するスタンドアロンの注意として、クエリとキーの間の類似性を測定します。
さらに、SIFAブロックをそれぞれConvNetsとVision Transformerに接続して、SIFA-NetとSIFA-Transformerを考案します。
4つのビデオデータセットで実施された広範な実験は、より強力なバックボーンとしてのSIFA-NetおよびSIFA-Transformerの優位性を示しています。
さらに注目すべきことに、SIFA-TransformerはKinetics-400データセットで83.1%の精度を達成しています。
ソースコードは\url{https://github.com/FuchenUSTC/SIFA}で入手できます。

要約(オリジナル)

Motion, as the uniqueness of a video, has been critical to the development of video understanding models. Modern deep learning models leverage motion by either executing spatio-temporal 3D convolutions, factorizing 3D convolutions into spatial and temporal convolutions separately, or computing self-attention along temporal dimension. The implicit assumption behind such successes is that the feature maps across consecutive frames can be nicely aggregated. Nevertheless, the assumption may not always hold especially for the regions with large deformation. In this paper, we present a new recipe of inter-frame attention block, namely Stand-alone Inter-Frame Attention (SIFA), that novelly delves into the deformation across frames to estimate local self-attention on each spatial location. Technically, SIFA remoulds the deformable design via re-scaling the offset predictions by the difference between two frames. Taking each spatial location in the current frame as the query, the locally deformable neighbors in the next frame are regarded as the keys/values. Then, SIFA measures the similarity between query and keys as stand-alone attention to weighted average the values for temporal aggregation. We further plug SIFA block into ConvNets and Vision Transformer, respectively, to devise SIFA-Net and SIFA-Transformer. Extensive experiments conducted on four video datasets demonstrate the superiority of SIFA-Net and SIFA-Transformer as stronger backbones. More remarkably, SIFA-Transformer achieves an accuracy of 83.1% on Kinetics-400 dataset. Source code is available at \url{https://github.com/FuchenUSTC/SIFA}.

arxiv情報

著者 Fuchen Long,Zhaofan Qiu,Yingwei Pan,Ting Yao,Jiebo Luo,Tao Mei
発行日 2022-06-14 15:51:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM パーマリンク