HiSC4D: Human-centered interaction and 4D Scene Capture in Large-scale Space Using Wearable IMUs and LiDAR


大規模な屋内と屋外のシーン、多様な人間の動き、豊かな人間と人間の相互作用、人間と環境を含むダイナミックなデジタル世界を正確かつ効率的に作成することを目的とした、新しい人間中心のインタラクションおよび 4D シーン キャプチャ手法である HiSC4D を紹介します。
HiSC4D は、身体に取り付けられた IMU と頭部に取り付けられた LiDAR を利用することで、外部デバイスや事前構築されたマップを必要とせずに、制約のない空間で自己中心的な人間の動きを捕捉できます。
これにより、さまざまな環境で人間中心のインタラクションや 4D シーンのキャプチャに優れた柔軟性とアクセシビリティが提供されます。
IMU は人間の空間的に制限のない姿勢を捉えることができますが、長期間の使用ではドリフトしやすいこと、LiDAR はグローバルな位置特定では安定していますが、局所的な位置と方向では粗いことを考慮して、HiSC4D は統合最適化手法を採用し、すべてのセンサーを調和させ、
大規模なシーンにおける自己中心的な人間のインタラクションの研究を促進し、下流のタスクを容易にするために、4 つの大規模なシーン (200 ~ 5,000 $m^2$) に 8 つのシーケンスを含むデータセットも提示します。これは、SMPL アノテーション付きの正確な 4D 人間のモーションの 36,000 フレームを提供します。
ダイナミックなシーン、トリミングされた人間の点群の 31k フレーム、および環境のシーン メッシュ。
バスケットボール ジムや商店街などのさまざまなシナリオと、日常の挨拶、1 対 1 のバスケットボールのプレー、ツアー ガイドなどの難しい人間の動作が、HiSC4D の有効性と一般化能力を示しています。
データセットとコードは www.lidarhumanmotion.net/hisc4d で公開され、研究目的で利用できます。


We introduce HiSC4D, a novel Human-centered interaction and 4D Scene Capture method, aimed at accurately and efficiently creating a dynamic digital world, containing large-scale indoor-outdoor scenes, diverse human motions, rich human-human interactions, and human-environment interactions. By utilizing body-mounted IMUs and a head-mounted LiDAR, HiSC4D can capture egocentric human motions in unconstrained space without the need for external devices and pre-built maps. This affords great flexibility and accessibility for human-centered interaction and 4D scene capturing in various environments. Taking into account that IMUs can capture human spatially unrestricted poses but are prone to drifting for long-period using, and while LiDAR is stable for global localization but rough for local positions and orientations, HiSC4D employs a joint optimization method, harmonizing all sensors and utilizing environment cues, yielding promising results for long-term capture in large scenes. To promote research of egocentric human interaction in large scenes and facilitate downstream tasks, we also present a dataset, containing 8 sequences in 4 large scenes (200 to 5,000 $m^2$), providing 36k frames of accurate 4D human motions with SMPL annotations and dynamic scenes, 31k frames of cropped human point clouds, and scene mesh of the environment. A variety of scenarios, such as the basketball gym and commercial street, alongside challenging human motions, such as daily greeting, one-on-one basketball playing, and tour guiding, demonstrate the effectiveness and the generalization ability of HiSC4D. The dataset and code will be publicated on www.lidarhumanmotion.net/hisc4d available for research purposes.


著者 Yudi Dai,Zhiyong Wang,Xiping Lin,Chenglu Wen,Lan Xu,Siqi Shen,Yuexin Ma,Cheng Wang
発行日 2024-09-09 15:08:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.MM パーマリンク