Capturing Temporal Information in a Single Frame: Channel Sampling Strategies for Action Recognition

要約

計算コストを増加させることなく、2D ネットワークでのビデオ分類のための時間情報をキャプチャする問題に対処します。
既存のアプローチは、2D ネットワークのアーキテクチャを変更することに重点を置いており (たとえば、時間次元にフィルターを含めて 3D ネットワークに変換したり、オプティカル フローを使用したりすることによって)、計算コストが増加します。
代わりに、入力ビデオのチャネルを並べ替えて、短期間のフレーム間の変化をキャプチャする新しいサンプリング戦略を提案します。
付属品がなければ、提案されたサンプリング戦略は、複数のアーキテクチャ (TSN、TRN、TSM、および MVFNet など) およびデータセット (CATER、Something-Something-V1 および V2) でのパフォーマンスを、ベースラインよりも最大 24% 向上させることがわかります。
標準のビデオ入力を使用します。
さらに、私たちのサンプリング戦略はゼロからのトレーニングを必要とせず、トレーニングとテストの計算コストを増加させません。
結果の一般性とアプローチの柔軟性を考えると、これがビデオ理解コミュニティに広く役立つことを願っています.
コードは、https://github.com/kiyoon/channel_sampling の Web サイトで入手できます。

要約(オリジナル)

We address the problem of capturing temporal information for video classification in 2D networks, without increasing their computational cost. Existing approaches focus on modifying the architecture of 2D networks (e.g. by including filters in the temporal dimension to turn them into 3D networks, or using optical flow, etc.), which increases computation cost. Instead, we propose a novel sampling strategy, where we re-order the channels of the input video, to capture short-term frame-to-frame changes. We observe that without bells and whistles, the proposed sampling strategy improves performance on multiple architectures (e.g. TSN, TRN, TSM, and MVFNet) and datasets (CATER, Something-Something-V1 and V2), up to 24% over the baseline of using the standard video input. In addition, our sampling strategies do not require training from scratch and do not increase the computational cost of training and testing. Given the generality of the results and the flexibility of the approach, we hope this can be widely useful to the video understanding community. Code is available on our website: https://github.com/kiyoon/channel_sampling.

arxiv情報

著者 Kiyoon Kim,Shreyank N Gowda,Oisin Mac Aodha,Laura Sevilla-Lara
発行日 2022-10-10 17:59:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク