MVP-Shot: Multi-Velocity Progressive-Alignment Framework for Few-Shot Action Recognition


最近の少数ショット行動認識(FSAR)手法は、学習された識別特徴に対 して意味マッチングを行うことで、有望な性能を達成している。しかし、ほとんどのFSAR手法は、単一スケール(フレームレベル、セグメントレベル、⾳⾳など)の特徴アライメントに焦点を当てており、同じ意味を持つ人間の行動が異なる速度で出現する可能性を無視している。この目的のために、我々は、多速度レベルにおける意味関連行動特徴を漸進的に学習し整列させる、新しい多速度漸進的整列(MVP-Shot)フレームワークを開発する。具体的には、多速度特徴アライメント(Multi-Velocity Feature Alignment: MVFA)モジュールを設計し、異なる速度スケールを持つサポート動画とクエリ動画からの特徴間の類似度を測定し、全ての類似度スコアを残余方式でマージする。複数の速度特徴量が基本的な運動意味から逸脱することを避けるために、我々の提案するProgressive Semantic-Tailored Interaction (PSTI)モジュールは、異なる速度におけるチャネルと時間領域での特徴量の相互作用を介して、速度に合わせたテキスト情報を動画特徴量に注入する。上記の2つのモジュールは、数ショットの設定下で、より正確にクエリカテゴリを予測するために、お互いを補う。実験の結果、我々の手法は、複数の標準的な少数ショットベンチマーク(HMDB51、UCF101、Kinetics、SSv2-small)において、現在の最先端手法を凌駕することが示された。


Recent few-shot action recognition (FSAR) methods achieve promising performance by performing semantic matching on learned discriminative features. However, most FSAR methods focus on single-scale (e.g., frame-level, segment-level, \etc) feature alignment, which ignores that human actions with the same semantic may appear at different velocities. To this end, we develop a novel Multi-Velocity Progressive-alignment (MVP-Shot) framework to progressively learn and align semantic-related action features at multi-velocity levels. Concretely, a Multi-Velocity Feature Alignment (MVFA) module is designed to measure the similarity between features from support and query videos with different velocity scales and then merge all similarity scores in a residual fashion. To avoid the multiple velocity features deviating from the underlying motion semantic, our proposed Progressive Semantic-Tailored Interaction (PSTI) module injects velocity-tailored text information into the video feature via feature interaction on channel and temporal domains at different velocities. The above two modules compensate for each other to predict query categories more accurately under the few-shot settings. Experimental results show our method outperforms current state-of-the-art methods on multiple standard few-shot benchmarks (i.e., HMDB51, UCF101, Kinetics, and SSv2-small).


著者 Hongyu Qu,Rui Yan,Xiangbo Shu,Haoliang Gao,Peng Huang,Guo-Sen Xie
発行日 2024-05-03 13:10:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, DeepL

カテゴリー: cs.CV パーマリンク