From Sparse Signal to Smooth Motion: Real-Time Motion Generation with Rolling Prediction Models

要約

拡張現実(XR)では、ユーザーの全身動きを生成することは、自分の行動を理解し、社会的相互作用のために仮想アバターを駆り立て、現実的な存在感を伝えるために重要です。
以前の作業は、モーションコントローラーからの空間的に疎な入力信号に焦点を当てていましたが、多くのXRアプリケーションは、ユーザーの摩擦を減らし、より良い浸漬のためにビジョンベースのハンドトラッキングを選択します。
コントローラーと比較して、ハンドトラッキング信号の精度が低く、長期間は欠落している可能性さえあります。
このような信頼性の低い入力を処理するために、ローリング予測モデル(RPM)を提示します。これは、時間的および空間的にスパース入力信号からスムーズな全身モーションを生成するオンラインおよびリアルタイムのアプローチです。
私たちのモデルは、入力(つまり、追跡モード)と2)入力が欠落しているときにもっともらしい動き(つまり、合成モード)に一致する正確な動きを生成します。
さらに重要なことに、RPMは追跡から合成へのシームレスな遷移を生成し、その逆も同様です。
ノイズの多い入力と欠落した入力を処理することの実際的な重要性を実証するために、コマーシャルバーチャルリアリティ(VR)ヘッドセットからの現実的なスパース入力の最初のデータセットであるGORPを、ペアの高品質のボディモーショングラウンドトゥルースと提示します。
GORPは、モーションコントローラー(空間的スパース)と手追跡(空間的および時間的にスパース)を使用して、28人から14時間以上のVRゲームプレイデータを提供します。
RPMは、合成データとGORPの両方の最先端に対してRPMをベンチマークして、現実的なデータセットで実際のアプリケーションのギャップを埋める方法と信頼できない入力信号を処理する方法を強調します。
当社のコード、前提条件のモデル、およびGORPデータセットは、プロジェクトWebページで入手できます。

要約(オリジナル)

In extended reality (XR), generating full-body motion of the users is important to understand their actions, drive their virtual avatars for social interaction, and convey a realistic sense of presence. While prior works focused on spatially sparse and always-on input signals from motion controllers, many XR applications opt for vision-based hand tracking for reduced user friction and better immersion. Compared to controllers, hand tracking signals are less accurate and can even be missing for an extended period of time. To handle such unreliable inputs, we present Rolling Prediction Model (RPM), an online and real-time approach that generates smooth full-body motion from temporally and spatially sparse input signals. Our model generates 1) accurate motion that matches the inputs (i.e., tracking mode) and 2) plausible motion when inputs are missing (i.e., synthesis mode). More importantly, RPM generates seamless transitions from tracking to synthesis, and vice versa. To demonstrate the practical importance of handling noisy and missing inputs, we present GORP, the first dataset of realistic sparse inputs from a commercial virtual reality (VR) headset with paired high quality body motion ground truth. GORP provides >14 hours of VR gameplay data from 28 people using motion controllers (spatially sparse) and hand tracking (spatially and temporally sparse). We benchmark RPM against the state of the art on both synthetic data and GORP to highlight how we can bridge the gap for real-world applications with a realistic dataset and by handling unreliable input signals. Our code, pretrained models, and GORP dataset are available in the project webpage.

arxiv情報

著者 German Barquero,Nadine Bertsch,Manojkumar Marramreddy,Carlos Chacón,Filippo Arcadu,Ferran Rigual,Nicky Sijia He,Cristina Palmero,Sergio Escalera,Yuting Ye,Robin Kips
発行日 2025-04-07 17:00:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク