要約
XR (AR/VR) デバイスでユーザーの全身の動きを追跡することは、本物の社会的存在感をもたらすための基本的な課題です。
専用の脚センサーがないため、現在利用可能な身体追跡方法は、頭部とコントローラーの追跡からの 3 点信号を与えて、もっともらしい動きを生成する合成アプローチを採用しています。
複合現実機能を有効にするために、最新の XR デバイスは、専用の機械学習モデルと組み合わせた利用可能なセンサーを使用して、ヘッドセット周囲の深度情報を推定できます。
このような自己中心的な深度センシングは、登録されておらず、限られた視野と身体の自己遮蔽により不完全であるため、身体を直接駆動することはできません。
初めて、自己監視と組み合わせた利用可能な深度センシング信号を活用して、XR デバイス上で全身の動きをリアルタイムで追跡できるマルチモーダル姿勢推定モデルを学習することを提案します。
マルチモーダル姿勢推定のための残差ネットワークと組み合わせたセマンティック点群エンコーダ ネットワークを使用して、現在の 3 点運動合成モデルを点群モダリティに拡張する方法を示します。
これらのモジュールは、実際の未登録の点群とモーション キャプチャから取得したシミュレートされたデータの組み合わせを活用して、自己監視型の方法で共同トレーニングされます。
私たちのアプローチを XR 身体追跡用のいくつかの最先端システムと比較し、私たちの方法がさまざまな身体の動きを正確に追跡することを示します。
部分的な体の追跡に基づく従来の合成アプローチは盲目でしたが、XR-MBT は XR で初めて脚を追跡しました。
要約(オリジナル)
Tracking the full body motions of users in XR (AR/VR) devices is a fundamental challenge to bring a sense of authentic social presence. Due to the absence of dedicated leg sensors, currently available body tracking methods adopt a synthesis approach to generate plausible motions given a 3-point signal from the head and controller tracking. In order to enable mixed reality features, modern XR devices are capable of estimating depth information of the headset surroundings using available sensors combined with dedicated machine learning models. Such egocentric depth sensing cannot drive the body directly, as it is not registered and is incomplete due to limited field-of-view and body self-occlusions. For the first time, we propose to leverage the available depth sensing signal combined with self-supervision to learn a multi-modal pose estimation model capable of tracking full body motions in real time on XR devices. We demonstrate how current 3-point motion synthesis models can be extended to point cloud modalities using a semantic point cloud encoder network combined with a residual network for multi-modal pose estimation. These modules are trained jointly in a self-supervised way, leveraging a combination of real unregistered point clouds and simulated data obtained from motion capture. We compare our approach against several state-of-the-art systems for XR body tracking and show that our method accurately tracks a diverse range of body motions. XR-MBT tracks legs in XR for the first time, whereas traditional synthesis approaches based on partial body tracking are blind.
arxiv情報
著者 | Denys Rozumnyi,Nadine Bertsch,Othman Sbai,Filippo Arcadu,Yuhua Chen,Artsiom Sanakoyeu,Manoj Kumar,Catherine Herold,Robin Kips |
発行日 | 2024-11-27 14:25:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google