要約
ジェスチャー認識は、コンピュータービジョンの分野における重要な研究分野です。
ほとんどのジェスチャー認識の取り組みは、クローズセットのシナリオに焦点を当てており、それにより、目に見えないまたは新しいジェスチャーを効果的に処理する能力を制限します。
私たちは、時間の経過とともに新しい、以前に目に見えなかったジェスチャーに対応する能力を伴う、階級内のジェスチャー認識に対処することを目指しています。
具体的には、データフリーのクラス内容ジェスチャー認識のために、プロトタイプ誘導の擬似特徴リプレイ(PGPFR)フレームワークを紹介します。
このフレームワークは、4つのコンポーネントで構成されています。バッチプロトタイプ(PFGBP)を備えた擬似機能生成、古いクラスの変分プロトタイプリプレイ(VPR)、新しいクラスの切り捨てられたクロスエントロピー(TCE)、および継続的な分類器再トレーニング(CCRT)。
壊滅的な忘却の問題に取り組むために、PFGBPはオンラインで多様な擬似機能を動的に生成し、古いクラスのクラスプロトタイプと新しいクラスのバッチクラスプロトタイプを活用します。
さらに、VPRは、分類器の重みと古いクラスのプロトタイプとの一貫性を強制し、クラスのプロトタイプと共分散行列を活用して、堅牢性と一般化能力を高めます。
TCEは、疑似特徴によって引き起こされる分類器のドメインの違いの影響を軽減します。
最後に、CCRTトレーニング戦略は、新しいクラスへの過剰適合を防ぎ、古いクラスから抽出された機能の安定性を確保するように設計されています。
広く使用されている2つのジェスチャー認識データセット、すなわちShrec 2017 3DとEgogesture 3Dで行われた広範な実験は、私たちのアプローチが、平均グローバル精度の点でそれぞれ11.8 \%および12.8 \%よりも既存の最先端の方法を上回ることを示しています。
このコードは、https://github.com/sunao-101/pgpfr-3/で入手できます。
要約(オリジナル)
Gesture recognition is an important research area in the field of computer vision. Most gesture recognition efforts focus on close-set scenarios, thereby limiting the capacity to effectively handle unseen or novel gestures. We aim to address class-incremental gesture recognition, which entails the ability to accommodate new and previously unseen gestures over time. Specifically, we introduce a Prototype-Guided Pseudo Feature Replay (PGPFR) framework for data-free class-incremental gesture recognition. This framework comprises four components: Pseudo Feature Generation with Batch Prototypes (PFGBP), Variational Prototype Replay (VPR) for old classes, Truncated Cross-Entropy (TCE) for new classes, and Continual Classifier Re-Training (CCRT). To tackle the issue of catastrophic forgetting, the PFGBP dynamically generates a diversity of pseudo features in an online manner, leveraging class prototypes of old classes along with batch class prototypes of new classes. Furthermore, the VPR enforces consistency between the classifier’s weights and the prototypes of old classes, leveraging class prototypes and covariance matrices to enhance robustness and generalization capabilities. The TCE mitigates the impact of domain differences of the classifier caused by pseudo features. Finally, the CCRT training strategy is designed to prevent overfitting to new classes and ensure the stability of features extracted from old classes. Extensive experiments conducted on two widely used gesture recognition datasets, namely SHREC 2017 3D and EgoGesture 3D, demonstrate that our approach outperforms existing state-of-the-art methods by 11.8\% and 12.8\% in terms of mean global accuracy, respectively. The code is available on https://github.com/sunao-101/PGPFR-3/.
arxiv情報
著者 | Hongsong Wang,Ao Sun,Jie Gui,Liang Wang |
発行日 | 2025-05-26 14:37:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google