MRSN: Multi-Relation Support Network for Video Action Detection

要約

タイトル:MRSN:Video Action DetectionのためのMulti-Relation Support Network

要約:

– アクション検出は、空間的および時間的な相互関係をモデル化する必要があるため、課題である。
– 現在の方法では、俳優 – 俳優および俳優 – コンテキスト関係を別々にモデル化しており、相補的で相互にサポートし合うことを無視している。
– この問題を解決するために、Multi-Relation Support Network(MRSN)と呼ばれる新しいネットワークを提案する。
– MRSNでは、Actor-Context Relation Encoder(ACRE)およびActor-Actor Relation Encoder(AARE)が俳優 – コンテキストおよび俳優 – 俳優関係を別々にモデル化する。
– 次に、Relation Support Encoder(RSE)が2つの関係のサポートを計算し、関係レベルの相互作用を実行する。
– 最後に、Relation Consensusモジュール(RCM)がLong-term Relation Bank(LRB)からの長期的な関係を含めた2つの関係を強化し、合意を得る。
– 実験は、関係を別々にモデル化し、関係レベルの相互作用を行うことで、AVおよびUCF101-24の2つの厳しいビデオデータセットについて最先端の結果を達成し、超えることができることを示している。

要約(オリジナル)

Action detection is a challenging video understanding task, requiring modeling spatio-temporal and interaction relations. Current methods usually model actor-actor and actor-context relations separately, ignoring their complementarity and mutual support. To solve this problem, we propose a novel network called Multi-Relation Support Network (MRSN). In MRSN, Actor-Context Relation Encoder (ACRE) and Actor-Actor Relation Encoder (AARE) model the actor-context and actor-actor relation separately. Then Relation Support Encoder (RSE) computes the supports between the two relations and performs relation-level interactions. Finally, Relation Consensus Module (RCM) enhances two relations with the long-term relations from the Long-term Relation Bank (LRB) and yields a consensus. Our experiments demonstrate that modeling relations separately and performing relation-level interactions can achieve and outperformer state-of-the-art results on two challenging video datasets: AVA and UCF101-24.

arxiv情報

著者 Yin-Dong Zheng,Guo Chen,Minglei Yuan,Tong Lu
発行日 2023-04-24 10:15:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク