IVAC-P2L: Leveraging Irregular Repetition Priors for Improving Video Action Counting


ビデオ アクション カウンティング (VAC) は、ビデオ内の反復アクションを定量化することにより、スポーツ、フィットネス、日常のアクティビティを分析する上で非常に重要です。
しかし、従来の VAC 手法では、中断やサイクル期間の変動など、アクションの繰り返しの複雑さが見落とされてきました。
私たちの研究では、不規則ビデオ アクション カウンティング (IVAC) と呼ばれる VAC への新しいアプローチを導入することで、この不足に対処しています。
IVAC は、ビデオ内の不規則な繰り返しパターンのモデリングを優先します。これは、サイクル間の一貫性とサイクル間隔の不一貫性という 2 つの主要な側面を通じて定義されます。
サイクル間の一貫性は、サイクル セグメントの時空間表現の均質性を保証し、サイクル内のアクションの均一性を示します。
これらの原則をカプセル化するために、独自のプルプッシュ損失 (P2L) メカニズムによってサポートされる、一貫性モジュールと不一貫性モジュールを含む新しい方法論を提案します。
IVAC-P2L モデルは、プル損失を適用してサイクル セグメントの特徴間の一貫性を促進し、プッシュ損失を適用してサイクル セグメントの特徴を間隔セグメントから明確に区別します。
RepCount データセットに対して行われた経験的評価により、IVAC-P2L モデルが VAC タスクのパフォーマンスに新しいベンチマークを設定することが実証されました。
さらに、このモデルは、さまざまなビデオ コンテンツにわたって優れた適応性と一般化を示し、データセット固有の最適化を必要とせずに、UCFRep と Countix という 2 つの追加データセットで既存のモデルを上回るパフォーマンスを示します。


Video Action Counting (VAC) is crucial in analyzing sports, fitness, and everyday activities by quantifying repetitive actions in videos. However, traditional VAC methods have overlooked the complexity of action repetitions, such as interruptions and the variability in cycle duration. Our research addresses the shortfall by introducing a novel approach to VAC, called Irregular Video Action Counting (IVAC). IVAC prioritizes modeling irregular repetition patterns in videos, which we define through two primary aspects: Inter-cycle Consistency and Cycle-interval Inconsistency. Inter-cycle Consistency ensures homogeneity in the spatial-temporal representations of cycle segments, signifying action uniformity within cycles. Cycle-interval inconsistency highlights the importance of distinguishing between cycle segments and intervals based on their inherent content differences. To encapsulate these principles, we propose a new methodology that includes consistency and inconsistency modules, supported by a unique pull-push loss (P2L) mechanism. The IVAC-P2L model applies a pull loss to promote coherence among cycle segment features and a push loss to clearly distinguish features of cycle segments from interval segments. Empirical evaluations conducted on the RepCount dataset demonstrate that the IVAC-P2L model sets a new benchmark in VAC task performance. Furthermore, the model demonstrates exceptional adaptability and generalization across various video contents, outperforming existing models on two additional datasets, UCFRep and Countix, without the need for dataset-specific optimization. These results confirm the efficacy of our approach in addressing irregular repetitions in videos and pave the way for further advancements in video analysis and understanding.


著者 Hang Wang,Zhi-Qi Cheng,Youtian Du,Lei Zhang
発行日 2024-03-20 11:58:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM パーマリンク