HUMOTO: A 4D Dataset of Mocap Human Object Interactions

要約

モーション生成、コンピュータービジョン、およびロボット工学アプリケーションのための人間とオブジェクトの相互作用の高忠実度データセットであるオブジェクト(Humoto)で人間の動きを提示します。
736のシーケンス(30 fpsで7,875秒)を備えた上音は、63の正確にモデル化されたオブジェクトと72の関節部品との相互作用をキャプチャします。
私たちの革新には、シーン主導のLLMスクリプトパイプラインが、自然な進行を備えた完全で目的のあるタスクを作成し、閉塞を効果的に処理するためのMoCap-and-Camera録音セットアップが含まれます。
調理から屋外のピクニックまで、多様なアクティビティにまたがって、上音は身体的精度と論理的なタスクの流れの両方を保存します。
プロのアーティストは、各シーケンスを厳密にきれいにし、検証し、足の滑りとオブジェクトの浸透を最小限に抑えます。
他のデータセットと比較してベンチマークも提供します。
Humotoの包括的なフルボディモーションと同時マルチオブジェクトインタラクションは、重要なデータキャプチャの課題に対処し、アニメーション、ロボット工学、および具体化されたAIシステムにおける実用的なアプリケーションを使用して、研究ドメイン全体で現実的な人間とオブジェクトの相互作用モデリングを促進する機会を提供します。
プロジェクト:https://jiaxin-lu.github.io/humoto/。

要約(オリジナル)

We present Human Motions with Objects (HUMOTO), a high-fidelity dataset of human-object interactions for motion generation, computer vision, and robotics applications. Featuring 736 sequences (7,875 seconds at 30 fps), HUMOTO captures interactions with 63 precisely modeled objects and 72 articulated parts. Our innovations include a scene-driven LLM scripting pipeline creating complete, purposeful tasks with natural progression, and a mocap-and-camera recording setup to effectively handle occlusions. Spanning diverse activities from cooking to outdoor picnics, HUMOTO preserves both physical accuracy and logical task flow. Professional artists rigorously clean and verify each sequence, minimizing foot sliding and object penetrations. We also provide benchmarks compared to other datasets. HUMOTO’s comprehensive full-body motion and simultaneous multi-object interactions address key data-capturing challenges and provide opportunities to advance realistic human-object interaction modeling across research domains with practical applications in animation, robotics, and embodied AI systems. Project: https://jiaxin-lu.github.io/humoto/ .

arxiv情報

著者 Jiaxin Lu,Chun-Hao Paul Huang,Uttaran Bhattacharya,Qixing Huang,Yi Zhou
発行日 2025-04-14 16:59:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク