What Can Simple Arithmetic Operations Do for Temporal Modeling?

要約

時間モデリングはビデオ コンテンツを理解する上で重要な役割を果たします。
この問題に取り組むために、これまでの研究では、強力な計算能力を備えたデバイスの開発により、時系列を通じて複雑な時間関係を構築しました。
この研究では、時間モデリングにおける 4 つの単純な算術演算の可能性を探ります。
具体的には、まず、抽出されたフレーム特徴のペア間の加算、減算、乗算、および除算を計算することにより、補助的な時間的手がかりを捕捉します。
次に、これらのキューから対応する特徴を抽出して、元の時間に関係のない領域に利益をもたらします。
このような単純なパイプラインを算術時間モジュール (ATM) と呼び、プラグ アンド プレイ スタイルのビジュアル バックボーンのステム上で動作します。
私たちは、ATM のインスタンス化に関する包括的なアブレーション研究を実施し、このモジュールが低い計算コストで強力な時間モデリング機能を提供することを実証します。
さらに、ATM は CNN ベースと ViT ベースの両方のアーキテクチャと互換性があります。
私たちの結果は、ATM がいくつかの一般的なビデオ ベンチマークよりも優れたパフォーマンスを達成していることを示しています。
具体的には、Something-Something V1、V2、Kinetics-400 では、それぞれ 65.6%、74.6%、89.4% というトップ 1 の精度に達しています。
コードは https://github.com/whwu95/ATM で入手できます。

要約(オリジナル)

Temporal modeling plays a crucial role in understanding video content. To tackle this problem, previous studies built complicated temporal relations through time sequence thanks to the development of computationally powerful devices. In this work, we explore the potential of four simple arithmetic operations for temporal modeling. Specifically, we first capture auxiliary temporal cues by computing addition, subtraction, multiplication, and division between pairs of extracted frame features. Then, we extract corresponding features from these cues to benefit the original temporal-irrespective domain. We term such a simple pipeline as an Arithmetic Temporal Module (ATM), which operates on the stem of a visual backbone with a plug-and-play style. We conduct comprehensive ablation studies on the instantiation of ATMs and demonstrate that this module provides powerful temporal modeling capability at a low computational cost. Moreover, the ATM is compatible with both CNNs- and ViTs-based architectures. Our results show that ATM achieves superior performance over several popular video benchmarks. Specifically, on Something-Something V1, V2 and Kinetics-400, we reach top-1 accuracy of 65.6%, 74.6%, and 89.4% respectively. The code is available at https://github.com/whwu95/ATM.

arxiv情報

著者 Wenhao Wu,Yuxin Song,Zhun Sun,Jingdong Wang,Chang Xu,Wanli Ouyang
発行日 2023-08-22 14:10:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク