Navigating Open Set Scenarios for Skeleton-based Action Recognition

要約

現実世界のシナリオでは、人間の行動はトレーニング データの分布から外れることが多く、モデルが既知の行動を認識し、未知の行動を拒否することが重要になります。
ただし、このようなオープンセット条件で純粋なスケルトン データを使用すると、視覚的な背景の手がかりの欠如とボディ ポーズ シーケンスの明確なまばらな構造により、課題が生じます。
このペーパーでは、未開発のオープンセット スケルトンベースのアクション認識 (OS-SAR) タスクに取り組み、3 つのスケルトンベースのデータセットに関するベンチマークを形式化します。
私たちは、タスクに対する 7 つの確立されたオープンセット アプローチのパフォーマンスを評価し、スケルトン情報を扱う際のその限界と重大な一般化の問題を特定します。
これらの課題に対処するために、スケルトンの関節、骨、速度のクロスモーダル アラインメントを利用して優れたオープンセット認識パフォーマンスを実現する、距離ベースのクロスモダリティ アンサンブル手法を提案します。
私たちはこの重要なアイデアを CrossMax と呼びます。これは、トレーニング中に潜在空間を調整するための新しいクロスモダリティ平均最大値不一致抑制メカニズムと、テスト中にクロスモダリティ距離ベースのロジット改良法を利用するアプローチです。
CrossMax は既存のアプローチを上回り、すべてのデータセットとバックボーンにわたって一貫して最先端の結果をもたらします。
ベンチマーク、コード、モデルは https://github.com/KPeng9510/OS-SAR でリリースされます。

要約(オリジナル)

In real-world scenarios, human actions often fall outside the distribution of training data, making it crucial for models to recognize known actions and reject unknown ones. However, using pure skeleton data in such open-set conditions poses challenges due to the lack of visual background cues and the distinct sparse structure of body pose sequences. In this paper, we tackle the unexplored Open-Set Skeleton-based Action Recognition (OS-SAR) task and formalize the benchmark on three skeleton-based datasets. We assess the performance of seven established open-set approaches on our task and identify their limits and critical generalization issues when dealing with skeleton information. To address these challenges, we propose a distance-based cross-modality ensemble method that leverages the cross-modal alignment of skeleton joints, bones, and velocities to achieve superior open-set recognition performance. We refer to the key idea as CrossMax – an approach that utilizes a novel cross-modality mean max discrepancy suppression mechanism to align latent spaces during training and a cross-modality distance-based logits refinement method during testing. CrossMax outperforms existing approaches and consistently yields state-of-the-art results across all datasets and backbones. The benchmark, code, and models will be released at https://github.com/KPeng9510/OS-SAR.

arxiv情報

著者 Kunyu Peng,Cheng Yin,Junwei Zheng,Ruiping Liu,David Schneider,Jiaming Zhang,Kailun Yang,M. Saquib Sarfraz,Rainer Stiefelhagen,Alina Roitberg
発行日 2023-12-11 12:29:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO, eess.IV パーマリンク