要約
数ショットのアクション認識は、わずかなサンプル(サポート)を使用して新しいアクションクラス(クエリ)を認識することを目的としています。
現在のアプローチの大部分は、ビデオ間の類似性を比較することを学習するメトリック学習パラダイムに従います。
最近、この類似性を直接測定することは理想的ではないことが観察されています。これは、さまざまなアクションインスタンスが特徴的な時間分布を示し、クエリビデオとサポートビデオ全体で深刻な不整合の問題が発生する可能性があるためです。
この論文では、この問題を2つの異なる側面、つまりアクション期間の不整合とアクションの進化の不整合から阻止します。
2段階のアクションアラインメントネットワーク(TA2N)を介してそれらに順番に対処します。
最初のステージでは、時間的アフィン変換を学習してアクションを特定します。これにより、アクションに関係のない機能(背景など)を閉じながら、各ビデオ機能をそのアクション期間にワープします。
次に、第2段階では、クエリ機能を調整して、時間的再配置と空間的オフセットの予測を実行することにより、サポートの時空間アクションの進化に一致させます。
ベンチマークデータセットでの広範な実験は、数ショットの行動認識のための最先端のパフォーマンスを達成する上で提案された方法の可能性を示しています。
要約(オリジナル)
Few-shot action recognition aims to recognize novel action classes (query) using just a few samples (support). The majority of current approaches follow the metric learning paradigm, which learns to compare the similarity between videos. Recently, it has been observed that directly measuring this similarity is not ideal since different action instances may show distinctive temporal distribution, resulting in severe misalignment issues across query and support videos. In this paper, we arrest this problem from two distinct aspects — action duration misalignment and action evolution misalignment. We address them sequentially through a Two-stage Action Alignment Network (TA2N). The first stage locates the action by learning a temporal affine transform, which warps each video feature to its action duration while dismissing the action-irrelevant feature (e.g. background). Next, the second stage coordinates query feature to match the spatial-temporal action evolution of support by performing temporally rearrange and spatially offset prediction. Extensive experiments on benchmark datasets show the potential of the proposed method in achieving state-of-the-art performance for few-shot action recognition.
arxiv情報
著者 | Shuyuan Li,Huabin Liu,Rui Qian,Yuxi Li,John See,Mengjuan Fei,Xiaoyuan Yu,Weiyao Lin |
発行日 | 2022-07-07 10:47:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google