Temporal Representation Learning on Monocular Videos for 3D Human Pose Estimation

要約

この論文では、単眼ビデオの時間情報をキャプチャするための教師なし特徴抽出方法を提案します。この方法では、各フレームで関心のある対象を検出してエンコードし、対照的な自己教師あり (CSS) 学習を活用して豊富な潜在ベクトルを抽出します。
他のCSSアプローチのように、近くのフレームの潜在的な特徴を正のペアとして単純に扱い、時間的に離れたフレームの潜在的な特徴を負のペアとして扱うのではなく、各潜在ベクトルを時変成分と時不変成分に明示的に解きほぐします。
次に、時変特徴にのみコントラスト損失を適用し、入力を再構築しながら、近くのフレームと離れたフレームの間で段階的な遷移を促進し、人間の姿勢推定に適した豊富な時間的特徴を抽出することを示します。
私たちのアプローチは、標準の CSS 戦略と比較してエラーを約 50% 削減し、他の監視されていない単一ビューの方法よりも優れており、マルチビュー技術のパフォーマンスに匹敵します。
2Dポーズが利用可能な場合、私たちのアプローチはさらに豊富な潜在機能を抽出し、3Dポーズ推定精度を向上させ、他の最先端の弱い教師付き方法よりも優れています.

要約(オリジナル)

In this paper we propose an unsupervised feature extraction method to capture temporal information on monocular videos, where we detect and encode subject of interest in each frame and leverage contrastive self-supervised (CSS) learning to extract rich latent vectors. Instead of simply treating the latent features of nearby frames as positive pairs and those of temporally-distant ones as negative pairs as in other CSS approaches, we explicitly disentangle each latent vector into a time-variant component and a time-invariant one. We then show that applying contrastive loss only to the time-variant features and encouraging a gradual transition on them between nearby and away frames while also reconstructing the input, extract rich temporal features, well-suited for human pose estimation. Our approach reduces error by about 50% compared to the standard CSS strategies, outperforms other unsupervised single-view methods and matches the performance of multi-view techniques. When 2D pose is available, our approach can extract even richer latent features and improve the 3D pose estimation accuracy, outperforming other state-of-the-art weakly supervised methods.

arxiv情報

著者 Sina Honari,Victor Constantin,Helge Rhodin,Mathieu Salzmann,Pascal Fua
発行日 2022-10-19 14:24:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク