要約
コンピュータービジョンにおけるエゴセントリックタスクに関する研究は、主に魚眼のカメラや没入型ヘッドセット内に埋め込まれたカメラなどのヘッドマウントカメラに焦点を当てています。
光学センサーの小型化が増加すると、さまざまな場所にあるより多くの身体装着デバイスへのカメラの積極的な統合につながると主張します。
これにより、コンピュータービジョンにおける確立されたタスクに新たな視点がもたらされ、人間のモーショントラッキング、ボディポーズの推定、アクション認識などの重要な領域があります。
この論文では、身体の体全体で複数の視点から現実的なエゴセントリックレンダリングを生成する身体装飾カメラの新しいシミュレーターであるエゴシムを紹介します。
エゴシムの重要な特徴は、モーションアーティファクトをレンダリングするための実際のモーションキャプチャデータを使用することです。これは、腕や脚の装飾カメラで特に顕著です。
さらに、いくつかのアクティビティ中に、6つのボディウォーンカメラとグラウンドトゥルースフルボディ3Dポーズからのエゴセントリック映像のデータセットであるMultigoViewを紹介します。
6つのGoProカメラを使用して、XSENSモーションキャプチャスーツからの3Dボディポーズ参照を使用して、13人の参加者から5時間の実世界のモーションデータで増強します。
エンドツーエンドのビデオのみの3Dポーズ推定ネットワークをトレーニングすることにより、エゴシムの有効性を実証します。
ドメインのギャップを分析すると、データセットとシミュレーターが実際のデータへの推論のためのトレーニングを実質的に支援することを示します。
Egosim Code&Multiegoviewデータセット:https://siplab.org/projects/egosim
要約(オリジナル)
Research on egocentric tasks in computer vision has mostly focused on head-mounted cameras, such as fisheye cameras or embedded cameras inside immersive headsets. We argue that the increasing miniaturization of optical sensors will lead to the prolific integration of cameras into many more body-worn devices at various locations. This will bring fresh perspectives to established tasks in computer vision and benefit key areas such as human motion tracking, body pose estimation, or action recognition — particularly for the lower body, which is typically occluded. In this paper, we introduce EgoSim, a novel simulator of body-worn cameras that generates realistic egocentric renderings from multiple perspectives across a wearer’s body. A key feature of EgoSim is its use of real motion capture data to render motion artifacts, which are especially noticeable with arm- or leg-worn cameras. In addition, we introduce MultiEgoView, a dataset of egocentric footage from six body-worn cameras and ground-truth full-body 3D poses during several activities: 119 hours of data are derived from AMASS motion sequences in four high-fidelity virtual environments, which we augment with 5 hours of real-world motion data from 13 participants using six GoPro cameras and 3D body pose references from an Xsens motion capture suit. We demonstrate EgoSim’s effectiveness by training an end-to-end video-only 3D pose estimation network. Analyzing its domain gap, we show that our dataset and simulator substantially aid training for inference on real-world data. EgoSim code & MultiEgoView dataset: https://siplab.org/projects/EgoSim
arxiv情報
著者 | Dominik Hollidt,Paul Streli,Jiaxi Jiang,Yasaman Haghighi,Changlin Qian,Xintong Liu,Christian Holz |
発行日 | 2025-02-25 17:11:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google