Cross-view Action Recognition via Contrastive View-invariant Representation

要約

タイトル:Contrastive View-invariant Representationを通じたクロスビューアクション認識

要約:

– クロスビューアクション認識(CVAR)は、以前に見たことのない視点から人間のアクションを認識することを目的としています。
– 案件によっては、新しいカメラを追加するときに大量のトレーニングデータを収集することが実用的でないか不可能である介護施設の監視やモニタリングなどが挙げられます。
– RGBビデオ、3Dスケルトンデータ、またはその両方から不変な特徴を学習するためのシンプルで効率的なCVARフレームワークを提案します。
– 提案手法は、N-UCLA、NTU-RGB+D 60、NTU-RGB+D 120、およびUWA3DIIデータセットでそれぞれ84.4%、97.3%、99.2%、99.4%(RGB)および99.9%(3Dスケルトン)の性能を達成し、現在の最高水準を上回ります。

要約(オリジナル)

Cross view action recognition (CVAR) seeks to recognize a human action when observed from a previously unseen viewpoint. This is a challenging problem since the appearance of an action changes significantly with the viewpoint. Applications of CVAR include surveillance and monitoring of assisted living facilities where is not practical or feasible to collect large amounts of training data when adding a new camera. We present a simple yet efficient CVAR framework to learn invariant features from either RGB videos, 3D skeleton data, or both. The proposed approach outperforms the current state-of-the-art achieving similar levels of performance across input modalities: 99.4% (RGB) and 99.9% (3D skeletons), 99.4% (RGB) and 99.9% (3D Skeletons), 97.3% (RGB), and 99.2% (3D skeletons), and 84.4%(RGB) for the N-UCLA, NTU-RGB+D 60, NTU-RGB+D 120, and UWA3DII datasets, respectively.

arxiv情報

著者 Yuexi Zhang,Dan Luo,Balaji Sundareshan,Octavia Camps,Mario Sznaier
発行日 2023-05-02 19:04:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク