Hierarchical Compositional Representations for Few-shot Action Recognition

要約

最近、行動認識は、インテリジェントな監視や人間とコンピューターの相互作用における包括的で実用的なアプリケーションに対してますます注目を集めています。
ただし、数回のアクションの認識は十分に調査されておらず、データが不足しているため、依然として困難なままです。
この論文では、少数ショット行動認識のための新しい階層的構成表現(HCR)学習アプローチを提案します。
具体的には、慎重に設計された階層的クラスタリングによって複雑なアクションをいくつかのサブアクションに分割し、サブアクションをよりきめ細かい空間的注意サブアクション (SAS アクション) にさらに分解します。
基本クラスと新規クラスの間には大きな違いがありますが、サブアクションまたは SAS アクションで同様のパターンを共有できます。
さらに、サブアクション表現の観点からビデオ サンプル間の類似性を測定するために、輸送問題で Earth Mover’s Distance を採用しています。
サブアクション間の最適なマッチング フローを距離メトリックとして計算します。これは、きめの細かいパターンの比較に適しています。
広範な実験により、私たちの方法がHMDB51、UCF101、およびKineticsデータセットで最先端の結果を達成することが示されています。

要約(オリジナル)

Recently action recognition has received more and more attention for its comprehensive and practical applications in intelligent surveillance and human-computer interaction. However, few-shot action recognition has not been well explored and remains challenging because of data scarcity. In this paper, we propose a novel hierarchical compositional representations (HCR) learning approach for few-shot action recognition. Specifically, we divide a complicated action into several sub-actions by carefully designed hierarchical clustering and further decompose the sub-actions into more fine-grained spatially attentional sub-actions (SAS-actions). Although there exist large differences between base classes and novel classes, they can share similar patterns in sub-actions or SAS-actions. Furthermore, we adopt the Earth Mover’s Distance in the transportation problem to measure the similarity between video samples in terms of sub-action representations. It computes the optimal matching flows between sub-actions as distance metric, which is favorable for comparing fine-grained patterns. Extensive experiments show our method achieves the state-of-the-art results on HMDB51, UCF101 and Kinetics datasets.

arxiv情報

著者 Changzhen Li,Jie Zhang,Shuzhe Wu,Xin Jin,Shiguang Shan
発行日 2022-08-19 16:16:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク