要約
ヒューマン シーン インタラクション モデリングにおけるデータ不足と高度なモーション合成の課題に直面し、新しい HSI モーション合成手法と併せて TRUMANS データセットを紹介します。
TRUMANS は、現在利用可能な最も包括的なモーション キャプチャされた HSI データセットであり、100 の屋内シーンにわたる 15 時間以上の人間のインタラクションを網羅しています。
接触のリアルさに重点を置き、人間の全身の動きと部品レベルの物体のダイナミクスを緻密に捉えます。
このデータセットは、物理環境を正確な仮想モデルに変換し、インタラクションの忠実度を維持しながら、人間と物体の両方の外観と動きに広範な拡張を適用することによってさらにスケールアップされます。
TRUMANS を利用して、シーンのコンテキストと意図されたアクションの両方を考慮して、任意の長さの HSI シーケンスを効率的に生成する拡散ベースの自己回帰モデルを考案しました。
実験では、私たちのアプローチは、さまざまな 3D シーン データセット (PROX、Replica、ScanNet、ScanNet++ など) で顕著なゼロショット一般化可能性を示し、定量的実験と人体研究で確認されたように、元のモーション キャプチャされたシーケンスを厳密に模倣するモーションを生成します。
要約(オリジナル)
Confronting the challenges of data scarcity and advanced motion synthesis in human-scene interaction modeling, we introduce the TRUMANS dataset alongside a novel HSI motion synthesis method. TRUMANS stands as the most comprehensive motion-captured HSI dataset currently available, encompassing over 15 hours of human interactions across 100 indoor scenes. It intricately captures whole-body human motions and part-level object dynamics, focusing on the realism of contact. This dataset is further scaled up by transforming physical environments into exact virtual models and applying extensive augmentations to appearance and motion for both humans and objects while maintaining interaction fidelity. Utilizing TRUMANS, we devise a diffusion-based autoregressive model that efficiently generates HSI sequences of any length, taking into account both scene context and intended actions. In experiments, our approach shows remarkable zero-shot generalizability on a range of 3D scene datasets (e.g., PROX, Replica, ScanNet, ScanNet++), producing motions that closely mimic original motion-captured sequences, as confirmed by quantitative experiments and human studies.
arxiv情報
著者 | Nan Jiang,Zhiyuan Zhang,Hongjie Li,Xiaoxuan Ma,Zan Wang,Yixin Chen,Tengyu Liu,Yixin Zhu,Siyuan Huang |
発行日 | 2024-03-13 15:45:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google