要約
タイトル:MRSN:Video Action DetectionのためのMulti-Relation Support Network
要約:
– アクション検出は、空間的および時間的な相互関係をモデル化する必要があるため、課題である。
– 現在の方法では、俳優 – 俳優および俳優 – コンテキスト関係を別々にモデル化しており、相補的で相互にサポートし合うことを無視している。
– この問題を解決するために、Multi-Relation Support Network(MRSN)と呼ばれる新しいネットワークを提案する。
– MRSNでは、Actor-Context Relation Encoder(ACRE)およびActor-Actor Relation Encoder(AARE)が俳優 – コンテキストおよび俳優 – 俳優関係を別々にモデル化する。
– 次に、Relation Support Encoder(RSE)が2つの関係のサポートを計算し、関係レベルの相互作用を実行する。
– 最後に、Relation Consensusモジュール(RCM)がLong-term Relation Bank(LRB)からの長期的な関係を含めた2つの関係を強化し、合意を得る。
– 実験は、関係を別々にモデル化し、関係レベルの相互作用を行うことで、AVおよびUCF101-24の2つの厳しいビデオデータセットについて最先端の結果を達成し、超えることができることを示している。
要約(オリジナル)
Action detection is a challenging video understanding task, requiring modeling spatio-temporal and interaction relations. Current methods usually model actor-actor and actor-context relations separately, ignoring their complementarity and mutual support. To solve this problem, we propose a novel network called Multi-Relation Support Network (MRSN). In MRSN, Actor-Context Relation Encoder (ACRE) and Actor-Actor Relation Encoder (AARE) model the actor-context and actor-actor relation separately. Then Relation Support Encoder (RSE) computes the supports between the two relations and performs relation-level interactions. Finally, Relation Consensus Module (RCM) enhances two relations with the long-term relations from the Long-term Relation Bank (LRB) and yields a consensus. Our experiments demonstrate that modeling relations separately and performing relation-level interactions can achieve and outperformer state-of-the-art results on two challenging video datasets: AVA and UCF101-24.
arxiv情報
著者 | Yin-Dong Zheng,Guo Chen,Minglei Yuan,Tong Lu |
発行日 | 2023-04-24 10:15:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI