要約
タイトル:骨格ベースの行動認識のためのフォーカライズドコントラスティブビューインバリアント学習
要約:
– 骨格ベースの行動認識において、ビューに依存する表現による影響を除くことが重要である。
– 既存の手法では、暗黙的にビューに依存する表現により視点の影響を効果的に除去することはできない。
– 本研究では、FoCoViLと呼ばれる自己監督学習枠組みを提案し、多視点のサンプルペア間で有効なコントラスティブ損失を最大化することによって、粗く整列した表現空間上でビュー固有情報を有意に抑制する。
– FoCoViLは、行動を共通のビューインバリアント特性で関連付け、同時に異なるものを分離する。
– さらに、ペアごとの類似度に基づく適応的なフォーカライゼーション手法を提案し、学習された空間でより明確なクラスター境界を強化することができる。
– FoCoViLは、多くの既存の自己監督表現学習ワークとは異なり、教師付き分類器に強く依存せず、非教師付き分類器と教師付き分類器の両方で優れた認識性能を発揮する。
– 包括的な実験は、提案されたコントラスティブベースのフォーカライゼーションがより差別的な潜在表現を生成することを示している。
要約(オリジナル)
Learning view-invariant representation is a key to improving feature discrimination power for skeleton-based action recognition. Existing approaches cannot effectively remove the impact of viewpoint due to the implicit view-dependent representations. In this work, we propose a self-supervised framework called Focalized Contrastive View-invariant Learning (FoCoViL), which significantly suppresses the view-specific information on the representation space where the viewpoints are coarsely aligned. By maximizing mutual information with an effective contrastive loss between multi-view sample pairs, FoCoViL associates actions with common view-invariant properties and simultaneously separates the dissimilar ones. We further propose an adaptive focalization method based on pairwise similarity to enhance contrastive learning for a clearer cluster boundary in the learned space. Different from many existing self-supervised representation learning work that rely heavily on supervised classifiers, FoCoViL performs well on both unsupervised and supervised classifiers with superior recognition performance. Extensive experiments also show that the proposed contrastive-based focalization generates a more discriminative latent representation.
arxiv情報
| 著者 | Qianhui Men,Edmond S. L. Ho,Hubert P. H. Shum,Howard Leung |
| 発行日 | 2023-04-03 10:12:30+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI