要約
ゼロショットアクション認識(ZSAR)は、トレーニング中に見られたことのないビデオアクションを認識することを目的としています。
ほとんどの既存の方法は、見えているアクションと見えていないアクションの間で共有された意味空間を想定しており、視覚空間から意味空間へのマッピングを直接学習することを目的としています。
このアプローチは、視覚空間と意味空間の間の意味ギャップによって挑戦されてきました。
この論文では、オブジェクトのセマンティクスを特権情報として使用して、セマンティックのギャップを狭め、それによって効果的に学習を支援する新しい方法を紹介します。
特に、オブジェクトを明示的に抽出せずにテスト中にオブジェクトのセマンティクスを暗黙的に抽出するための単純な幻覚ネットワークが提案され、オブジェクトのセマンティクスで視覚的特徴を強化するために相互注意モジュールが開発されています。
オリンピックスポーツ、HMDB51、およびUCF101データセットに関する実験では、提案された方法が最先端の方法を大幅に上回っていることを示しています。
要約(オリジナル)
Zero-Shot Action Recognition (ZSAR) aims to recognize video actions that have never been seen during training. Most existing methods assume a shared semantic space between seen and unseen actions and intend to directly learn a mapping from a visual space to the semantic space. This approach has been challenged by the semantic gap between the visual space and semantic space. This paper presents a novel method that uses object semantics as privileged information to narrow the semantic gap and, hence, effectively, assist the learning. In particular, a simple hallucination network is proposed to implicitly extract object semantics during testing without explicitly extracting objects and a cross-attention module is developed to augment visual feature with the object semantics. Experiments on the Olympic Sports, HMDB51 and UCF101 datasets have shown that the proposed method outperforms the state-of-the-art methods by a large margin.
arxiv情報
著者 | Zhiyi Gao,Yonghong Hou,Wanqing Li,Zihui Guo,Bin Yu |
発行日 | 2022-06-22 09:53:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google