要約
この論文では、単一のウェアラブルカメラからキャプチャされたビデオから計算された人物の3Dボディポーズ推定を強化するための新しいアプローチを提案します。
重要なアイデアは、共同埋め込みスペースでファーストビューとサードビューをリンクする高レベルの機能を活用することです。
このような埋め込みスペースを学習するために、First2Third-Poseを紹介します。これは、ファーストビューとサードビューの両方の観点からキャプチャされた人間の活動を描いた約2,000本のビデオの新しいペア同期データセットです。
自己監視方式でトレーニングされたセミシャムアーキテクチャを使用して組み合わせた、空間ドメインとモーションドメインの機能を明示的に検討します。
実験結果は、データセットで学習した共同マルチビュー埋め込みスペースが、ドメインの適応やカメラパラメータの知識を必要とせずに、任意のシングルビューエゴセントリックビデオから識別機能を抽出するのに役立つことを示しています。
3つの監視された最先端のアプローチを超えて、2つの制約のないデータセットで自己中心的な3Dボディポーズ推定パフォーマンスの大幅な改善を達成します。
私たちのデータセットとコードは、研究目的で利用できるようになります。
要約(オリジナル)
In this paper, we propose a novel approach to enhance the 3D body pose estimation of a person computed from videos captured from a single wearable camera. The key idea is to leverage high-level features linking first- and third-views in a joint embedding space. To learn such embedding space we introduce First2Third-Pose, a new paired synchronized dataset of nearly 2,000 videos depicting human activities captured from both first- and third-view perspectives. We explicitly consider spatial- and motion-domain features, combined using a semi-Siamese architecture trained in a self-supervised fashion. Experimental results demonstrate that the joint multi-view embedded space learned with our dataset is useful to extract discriminatory features from arbitrary single-view egocentric videos, without needing domain adaptation nor knowledge of camera parameters. We achieve significant improvement of egocentric 3D body pose estimation performance on two unconstrained datasets, over three supervised state-of-the-art approaches. Our dataset and code will be available for research purposes.
arxiv情報
著者 | Ameya Dhamanaskar,Mariella Dimiccoli,Enric Corona,Albert Pumarola,Francesc Moreno-Noguer |
発行日 | 2022-06-15 16:09:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google