Rethinking matching-based few-shot action recognition

要約

少数のアクションの認識、つまり、ほんの数例が与えられた新しいアクション クラスを認識することは、一時的な情報を組み込むことでメリットが得られます。
以前の作業では、そのような情報を表現自体にエンコードしてテスト時に分類器を学習するか、フレームレベルの特徴を取得してペアワイズ時間マッチングを実行します。
最初に、時空間バックボーンの特徴を使用した多数のマッチングベースのアプローチを評価し、比較は文献から欠落しており、単純なベースラインとより複雑な方法との間のパフォーマンスのギャップが大幅に縮小されていることを示しています。
これに触発されて、少数ショットのアクション認識で最先端の結果を達成する非時間的マッチング関数である Chamfer++ を提案します。
一時的な特徴から開始する場合、パラメーターを使用しない解釈可能なアプローチは、マッチング段階で一時的な情報を使用せずに、3 つの一般的なデータセットでのワンショット アクション認識のための他のすべてのマッチングベースおよび分類子メソッドよりも優れていることを示します。
プロジェクトページ: https://jbertrand89.github.io/matching-based-fsar

要約(オリジナル)

Few-shot action recognition, i.e. recognizing new action classes given only a few examples, benefits from incorporating temporal information. Prior work either encodes such information in the representation itself and learns classifiers at test time, or obtains frame-level features and performs pairwise temporal matching. We first evaluate a number of matching-based approaches using features from spatio-temporal backbones, a comparison missing from the literature, and show that the gap in performance between simple baselines and more complicated methods is significantly reduced. Inspired by this, we propose Chamfer++, a non-temporal matching function that achieves state-of-the-art results in few-shot action recognition. We show that, when starting from temporal features, our parameter-free and interpretable approach can outperform all other matching-based and classifier methods for one-shot action recognition on three common datasets without using temporal information in the matching stage. Project page: https://jbertrand89.github.io/matching-based-fsar

arxiv情報

著者 Juliette Bertrand,Yannis Kalantidis,Giorgos Tolias
発行日 2023-03-28 15:52:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク