A Grammatical Compositional Model for Video Action Detection

要約

ビデオ内の人間の行動を分析するには、複雑な人間のダイナミクス、および俳優とコンテキスト間の相互作用を理解する必要があります。
ただし、これらの相互作用関係は、通常、人間のさまざまなポーズやオブジェクトの操作によるクラス内での大きな変動と、同様のアクション間のきめの細かいクラス間の差異を示します。
したがって、既存の方法のパフォーマンスは大幅に制限されます。
インタラクティブなアクションはアクターのダイナミクスと参加するオブジェクトまたは人間に分解できるという観察を動機として、それらの複合特性を調査することを提案します。
この論文では、典型的な And-Or グラフに基づいたアクション検出のための新しい文法構成モデル (GCM) を紹介します。
私たちのモデルは、アクションの固有の構造と潜在的な関係を階層的な方法で利用して、文法モデルの構成性と DNN の豊富な機能を表現する機能の両方を活用します。
提案されたモデルは、エンドツーエンドの方法で効率的な最適化を行うために、ニューラル ネットワーク モジュールに容易に組み込むことができます。
私たちのモデルの優位性を実証するために、AVA データセットと Something-Else タスクに対して広範な実験が行われ、その一方で、推論解析手順を通じて解釈可能性が強化されています。

要約(オリジナル)

Analysis of human actions in videos demands understanding complex human dynamics, as well as the interaction between actors and context. However, these interaction relationships usually exhibit large intra-class variations from diverse human poses or object manipulations, and fine-grained inter-class differences between similar actions. Thus the performance of existing methods is severely limited. Motivated by the observation that interactive actions can be decomposed into actor dynamics and participating objects or humans, we propose to investigate the composite property of them. In this paper, we present a novel Grammatical Compositional Model (GCM) for action detection based on typical And-Or graphs. Our model exploits the intrinsic structures and latent relationships of actions in a hierarchical manner to harness both the compositionality of grammar models and the capability of expressing rich features of DNNs. The proposed model can be readily embodied into a neural network module for efficient optimization in an end-to-end manner. Extensive experiments are conducted on the AVA dataset and the Something-Else task to demonstrate the superiority of our model, meanwhile the interpretability is enhanced through an inference parsing procedure.

arxiv情報

著者 Zhijun Zhang,Xu Zou,Jiahuan Zhou,Sheng Zhong,Ying Wu
発行日 2023-10-04 15:24:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク