HyRSM++: Hybrid Relation Guided Temporal Set Matching for Few-shot Action Recognition

要約

最近の研究では、エピソードメタ学習により各動画の深層表現を個別に学習し、クエリ動画とサポート動画をマッチングさせるための時間的アライメントを行うことに主に焦点が当てられている。しかし、これらはまだ2つの欠点に悩まされている:(i)タスク全体を考慮せずに個々の特徴を学習すると、表現能力に限界が生じる可能性がある、(ii)既存のアライメント戦略はノイズやミスアライメントインスタンスに敏感である、である。この2つの欠点を解決するために、我々は数ショット行動認識のための新しいハイブリッド関係誘導型時分割マッチング(HyRSM++)アプローチを提案する。HyRSM++の核となる考え方は、タスク内の全ての映像を統合して識別的な表現を学習し、頑健なマッチング技術を伴うことである。具体的には、HyRSM++は2つの主要なコンポーネント、ハイブリッド関係モジュールと時間集合マッチングメトリックから構成されている。特徴抽出器から基本的な表現が与えられると、ハイブリッド関係モジュールが導入され、エピソードタスクのビデオ内とビデオ間の関連した関係を完全に利用し、タスク固有の埋め込みを学習することができる。次に、時間的集合マッチング指標において、集合マッチングの観点からクエリ動画とサポート動画間の距離測定を行い、Bi-MHMを設計して、ずれたインスタンスに対する耐性を向上させる。さらに、マッチングプロセスを正則化するために、映像の時間的一貫性を明示的に利用する。さらに、提案するHyRSM++を拡張し、より困難な半教師付き少数ショット行動認識と教師なし少数ショット行動認識タスクに対処する。複数のベンチマークを用いた実験により、本手法が様々な少数ショット設定の下で最先端の性能を達成することが実証された。ソースコードは https://github.com/alibaba-mmai-research/HyRSMPlusPlus で公開されています。

要約(オリジナル)

Recent attempts mainly focus on learning deep representations for each video individually under the episodic meta-learning regime and then performing temporal alignment to match query and support videos. However, they still suffer from two drawbacks: (i) learning individual features without considering the entire task may result in limited representation capability, and (ii) existing alignment strategies are sensitive to noises and misaligned instances. To handle the two limitations, we propose a novel Hybrid Relation guided temporal Set Matching (HyRSM++) approach for few-shot action recognition. The core idea of HyRSM++ is to integrate all videos within the task to learn discriminative representations and involve a robust matching technique. To be specific, HyRSM++ consists of two key components, a hybrid relation module and a temporal set matching metric. Given the basic representations from the feature extractor, the hybrid relation module is introduced to fully exploit associated relations within and cross videos in an episodic task and thus can learn task-specific embeddings. Subsequently, in the temporal set matching metric, we carry out the distance measure between query and support videos from a set matching perspective and design a Bi-MHM to improve the resilience to misaligned instances. In addition, we explicitly exploit the temporal coherence in videos to regularize the matching process. Furthermore, we extend the proposed HyRSM++ to deal with the more challenging semi-supervised few-shot action recognition and unsupervised few-shot action recognition tasks. Experimental results on multiple benchmarks demonstrate that our method achieves state-of-the-art performance under various few-shot settings. The source code is available at https://github.com/alibaba-mmai-research/HyRSMPlusPlus.

arxiv情報

著者 Xiang Wang,Shiwei Zhang,Zhiwu Qing,Zhengrong Zuo,Changxin Gao,Rong Jin,Nong Sang
発行日 2023-01-09 13:32:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク