CycleACR: Cycle Modeling of Actor-Context Relations for Video Action Detection

要約

俳優とシーン コンテキスト間の関係モデリングは、複数の俳優の相関関係がアクション認識を困難にするビデオ アクション検出を促進します。
既存の研究では、各俳優とシーンの関係をモデル化して、行動認識を改善しています。
ただし、シーンの変化と背景の干渉により、この関係モデリングの有効性が制限されます。
このホワイト ペーパーでは、生のビデオ シナリオを直接活用するのではなく、俳優に関連するシーン コンテキストを選択して、関係モデリングを改善することを提案します。
アクターとコンテキストの関係を双方向形式でモデル化する対称グラフがある、Cycle Actor-Context Relation ネットワーク (CycleACR) を開発します。
当社の CycleACR は、コンテキスト機能の再編成のためにアクター機能を収集する Actor-to-Context Reorganization (A2C-R) と、再編成されたコンテキスト機能を動的に利用してアクター機能を強化する Context-to-Actor Enhancement (C2A-E) で構成されます。
C2A-E に焦点を当てた既存の設計と比較して、当社の CycleACR は、より効果的な関係モデリングのために A2C-R を導入しています。
このモデリングにより、CycleACR が進化し、2 つの一般的なアクション検出データセット (つまり、AVA と UCF101-24) で最先端のパフォーマンスが達成されます。
また、アブレーション研究と視覚化も提供して、サイクル アクター コンテキスト関係モデリングがビデオ アクション検出をどのように改善するかを示します。
コードは https://github.com/MCG-NJU/CycleACR で入手できます。

要約(オリジナル)

The relation modeling between actors and scene context advances video action detection where the correlation of multiple actors makes their action recognition challenging. Existing studies model each actor and scene relation to improve action recognition. However, the scene variations and background interference limit the effectiveness of this relation modeling. In this paper, we propose to select actor-related scene context, rather than directly leverage raw video scenario, to improve relation modeling. We develop a Cycle Actor-Context Relation network (CycleACR) where there is a symmetric graph that models the actor and context relations in a bidirectional form. Our CycleACR consists of the Actor-to-Context Reorganization (A2C-R) that collects actor features for context feature reorganizations, and the Context-to-Actor Enhancement (C2A-E) that dynamically utilizes reorganized context features for actor feature enhancement. Compared to existing designs that focus on C2A-E, our CycleACR introduces A2C-R for a more effective relation modeling. This modeling advances our CycleACR to achieve state-of-the-art performance on two popular action detection datasets (i.e., AVA and UCF101-24). We also provide ablation studies and visualizations as well to show how our cycle actor-context relation modeling improves video action detection. Code is available at https://github.com/MCG-NJU/CycleACR.

arxiv情報

著者 Lei Chen,Zhan Tong,Yibing Song,Gangshan Wu,Limin Wang
発行日 2023-03-28 16:40:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク