Semantic-aware Video Representation for Few-shot Action Recognition

要約

動作認識に関する最近の研究では、3D 機能とテキスト情報を活用して最先端のパフォーマンスを実現しています。
しかし、現在の少数ショットのアクション認識方法のほとんどは依然として 2D フレームレベルの表現に依存しており、多くの場合、時間的な関係をモデル化するために追加のコンポーネントが必要であり、これらの表現の正確な位置合わせを達成するために複雑な距離関数を採用しています。
さらに、既存の方法は、テキストの意味論を効果的に統合するのに苦労しており、テキストと視覚の特徴の連結または追加に頼るものもあれば、特徴の融合や異なるモダリティからの情報伝達を真に達成することなく、単に追加の監視としてテキストを使用するものもあります。
この研究では、これらの問題に対処するために、シンプルかつ効果的な Semantic-Aware Few-Shot Action Recognition (SAFSAR) モデルを提案します。
効果的な特徴融合スキームと組み合わせた 3D 特徴抽出器と、分類のための単純なコサイン類似度を直接活用することで、時間モデリングや複雑な距離関数のための追加コンポーネントを必要とせずに、より優れたパフォーマンスが得られることを示します。
テキストの意味論をビデオ表現にエンコードする革新的なスキームを導入します。これにより、テキストとビデオの特徴が適応的に融合され、ビジュアル エンコーダーが意味論的により一貫した特徴を抽出できるようになります。
このスキームでは、SAFSAR はコンパクトな方法で位置合わせと融合を実現します。
さまざまな設定下での 5 つの困難な少数ショット操作認識ベンチマークの実験により、提案された SAFSAR モデルが最先端のパフォーマンスを大幅に向上させることが実証されました。

要約(オリジナル)

Recent work on action recognition leverages 3D features and textual information to achieve state-of-the-art performance. However, most of the current few-shot action recognition methods still rely on 2D frame-level representations, often require additional components to model temporal relations, and employ complex distance functions to achieve accurate alignment of these representations. In addition, existing methods struggle to effectively integrate textual semantics, some resorting to concatenation or addition of textual and visual features, and some using text merely as an additional supervision without truly achieving feature fusion and information transfer from different modalities. In this work, we propose a simple yet effective Semantic-Aware Few-Shot Action Recognition (SAFSAR) model to address these issues. We show that directly leveraging a 3D feature extractor combined with an effective feature-fusion scheme, and a simple cosine similarity for classification can yield better performance without the need of extra components for temporal modeling or complex distance functions. We introduce an innovative scheme to encode the textual semantics into the video representation which adaptively fuses features from text and video, and encourages the visual encoder to extract more semantically consistent features. In this scheme, SAFSAR achieves alignment and fusion in a compact way. Experiments on five challenging few-shot action recognition benchmarks under various settings demonstrate that the proposed SAFSAR model significantly improves the state-of-the-art performance.

arxiv情報

著者 Yutao Tang,Benjamin Bejar,Rene Vidal
発行日 2023-11-10 18:13:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク