Deconstruct Complexity (DeComplex): A Novel Perspective on Tackling Dense Action Detection

要約

高密度のアクション検出には、トリミングされていないビデオで複数の共起アクションを検出することが含まれますが、アクションクラスはしばしば曖昧であり、重複する概念を表します。
このチャレンジタスクに対処するために、人間が複雑なタスクに取り組む方法に触発された斬新な視点を紹介し、それらを管理可能なサブタスクに分割します。
現在のアプローチのように、問題全体に対処するために単一のネットワークに依存する代わりに、アクションクラスに存在する重要な概念、特に高密度の静的概念を検出し、密な動的概念を検出し、明確なものに割り当てることを検出するために問題を分解することを提案します。
専門ネットワーク。
さらに、ビデオ内の同時アクションはしばしば相互関係を示し、これらの関係を活用するとパフォーマンスが向上する可能性があります。
しかし、私たちは、現在のネットワークが、各クラスを独立して扱うバイナリ交差エントロピーの最適化に依存しているため、これらの関係を効果的に学習できないと主張しています。
この制限に対処するために、ネットワークの最適化中に、新しい言語誘導対照学習損失を通じて、共同概念に関する明示的な監督を提供することを提案します。
当社の広範な実験は、最先端の方法よりもアプローチの優位性を示しており、挑戦的なベンチマークデータセット、シャレード、マルチムーモスの23.4%と2.5%のマップの大幅な相対的な改善を達成しています。

要約(オリジナル)

Dense action detection involves detecting multiple co-occurring actions in an untrimmed video while action classes are often ambiguous and represent overlapping concepts. To address this challenge task, we introduce a novel perspective inspired by how humans tackle complex tasks by breaking them into manageable sub-tasks. Instead of relying on a single network to address the entire problem, as in current approaches, we propose decomposing the problem into detecting key concepts present in action classes, specifically, detecting dense static concepts and detecting dense dynamic concepts, and assigning them to distinct, specialized networks. Furthermore, simultaneous actions in a video often exhibit interrelationships, and exploiting these relationships can improve performance. However, we argue that current networks fail to effectively learn these relationships due to their reliance on binary cross-entropy optimization, which treats each class independently. To address this limitation, we propose providing explicit supervision on co-occurring concepts during network optimization through a novel language-guided contrastive learning loss. Our extensive experiments demonstrate the superiority of our approach over state-of-the-art methods, achieving substantial relative improvements of 23.4% and 2.5% mAP on the challenging benchmark datasets, Charades and MultiTHUMOS.

arxiv情報

著者 Faegheh Sardari,Armin Mustafa,Philip J. B. Jackson,Adrian Hilton
発行日 2025-01-30 17:20:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク