Localization-Aware Multi-Scale Representation Learning for Repetitive Action Counting

要約

Repetitive Action Counting (RAC) は、手本なしでビデオ内のクラスに依存しないアクションの発生数を推定することを目的としています。
現在のほとんどの RAC メソッドは、期間予測のために生のフレーム間の類似性表現に依存しています。
ただし、このアプローチは、アクションの中断や不一致などの一般的なノイズによって大幅に中断され、現実的なシナリオでは最適な計数パフォーマンスが得られない可能性があります。
この論文では、より堅牢で効率的なビデオ特徴を取得するために、類似性表現学習に前景ローカリゼーション最適化目標を導入します。
私たちは、ローカリゼーションを意識したマルチスケール表現学習 (LMRL) フレームワークを提案します。
具体的には、スケール固有の設計を備えたマルチスケール期間認識表現 (MPR) を適用して、さまざまなアクション頻度に対応し、より柔軟な時間相関を学習します。
さらに、周期的なアクションを大まかに識別し、グローバルなセマンティック情報を組み込むことによって表現を強化する、反復フォアグラウンド ローカリゼーション (RFL) 手法を導入します。
これら 2 つのモジュールは共同で最適化することができ、その結果、より明確な周期的アクションの表現が得られます。
私たちのアプローチはノイズの影響を大幅に軽減し、それによって計数精度を向上させます。
さらに、このフレームワークは、さまざまな種類のビデオ コンテンツに拡張可能で適応できるように設計されています。
RepCountA および UCFRep データセットの実験結果は、提案された方法が反復アクションのカウントを効果的に処理することを示しています。

要約(オリジナル)

Repetitive action counting (RAC) aims to estimate the number of class-agnostic action occurrences in a video without exemplars. Most current RAC methods rely on a raw frame-to-frame similarity representation for period prediction. However, this approach can be significantly disrupted by common noise such as action interruptions and inconsistencies, leading to sub-optimal counting performance in realistic scenarios. In this paper, we introduce a foreground localization optimization objective into similarity representation learning to obtain more robust and efficient video features. We propose a Localization-Aware Multi-Scale Representation Learning (LMRL) framework. Specifically, we apply a Multi-Scale Period-Aware Representation (MPR) with a scale-specific design to accommodate various action frequencies and learn more flexible temporal correlations. Furthermore, we introduce the Repetition Foreground Localization (RFL) method, which enhances the representation by coarsely identifying periodic actions and incorporating global semantic information. These two modules can be jointly optimized, resulting in a more discerning periodic action representation. Our approach significantly reduces the impact of noise, thereby improving counting accuracy. Additionally, the framework is designed to be scalable and adaptable to different types of video content. Experimental results on the RepCountA and UCFRep datasets demonstrate that our proposed method effectively handles repetitive action counting.

arxiv情報

著者 Sujia Wang,Xiangwei Shen,Yansong Tang,Xin Dong,Wenjia Geng,Lei Chen
発行日 2025-01-13 13:24:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク