MVP-Shot: Multi-Velocity Progressive-Alignment Framework for Few-Shot Action Recognition

要約

最近の少ないショットアクション認識(FSAR)メソッドは、通常、学習した識別機能のセマンティックマッチングを実行して、有望なパフォーマンスを実現します。
ただし、ほとんどのFSARメソッドは、シングルスケール(例:フレームレベル、セグメントレベルなど)に焦点を当てています。これは、同じセマンティックで人間の行動が異なる速度で表示される可能性があることを無視します。
この目的のために、マルチ速度レベルでセマンティック関連のアクション機能を徐々に学習および整列させるために、新しいマルチ速度プログレッシブアライメント(MVPショット)フレームワークを開発します。
具体的には、マルチ速度機能アラインメント(MVFA)モジュールは、さまざまな速度スケールを持つサポートビデオとクエリビデオからの機能の類似性を測定し、すべての類似性スコアを残留ファッションでマージするように設計されています。
基礎となるモーションセマンティックから逸​​脱している複数の速度機能を回避するために、提案されたプログレッシブセマンティックテイロードインタラクション(PSTI)モジュールは、さまざまな速度でのチャネルおよび時間ドメインの機能相互作用を介して速度依存テキスト情報をビデオ機能に注入します。
上記の2つのモジュールは、互いを補償して、少数のショット設定の下でより正確なクエリサンプル予測を行います。
実験結果は、私たちの方法が、複数の標準の少数のベンチマーク(つまり、HMDB51、UCF101、速度論、およびSSV2-Small)の現在の最先端の方法よりも優れていることを示しています。

要約(オリジナル)

Recent few-shot action recognition (FSAR) methods typically perform semantic matching on learned discriminative features to achieve promising performance. However, most FSAR methods focus on single-scale (e.g., frame-level, segment-level, etc) feature alignment, which ignores that human actions with the same semantic may appear at different velocities. To this end, we develop a novel Multi-Velocity Progressive-alignment (MVP-Shot) framework to progressively learn and align semantic-related action features at multi-velocity levels. Concretely, a Multi-Velocity Feature Alignment (MVFA) module is designed to measure the similarity between features from support and query videos with different velocity scales and then merge all similarity scores in a residual fashion. To avoid the multiple velocity features deviating from the underlying motion semantic, our proposed Progressive Semantic-Tailored Interaction (PSTI) module injects velocity-tailored text information into the video feature via feature interaction on channel and temporal domains at different velocities. The above two modules compensate for each other to make more accurate query sample predictions under the few-shot settings. Experimental results show our method outperforms current state-of-the-art methods on multiple standard few-shot benchmarks (i.e., HMDB51, UCF101, Kinetics, and SSv2-small).

arxiv情報

著者 Hongyu Qu,Rui Yan,Xiangbo Shu,Hailiang Gao,Peng Huang,Guo-Sen Xie
発行日 2025-03-05 13:43:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク