要約
人間のデータを模倣して 3D シーンと対話するヒューマノイド ロボットの一般的なスキルを学習することは、ロボット工学や現実世界のアプリケーションに重大な影響を与える重要な研究課題です。
ただし、既存の方法論とベンチマークは、手動で収集された小規模なデモンストレーションの使用に制約されており、シーン ジオメトリの一般化を効果的に調査するために必要な一般的なデータセットとベンチマークのサポートが不足しています。
このギャップに対処するために、大規模なヒューマン アニメーションの参照を模倣することにより、一般化可能なヒューマノイドとシーンのインタラクション学習を目的として設計された最初の包括的なベンチマークである Mimicking-Bench を導入します。
Mimicking-Bench には、6 つの家庭用全身ヒューマノイド シーン インタラクション タスクが含まれており、11,000 の多様なオブジェクト形状と、20,000 の合成および 3,000 の現実世界のヒューマン インタラクション スキルのリファレンスをカバーしています。
私たちは完全なヒューマノイド スキル学習パイプラインを構築し、モーション リターゲティング、モーション トラッキング、模倣学習、およびそれらのさまざまな組み合わせに対するベンチマーク アプローチを構築します。
広範な実験により、スキル学習における人間の模倣の価値が強調され、重要な課題と研究の方向性が明らかになりました。
要約(オリジナル)
Learning generic skills for humanoid robots interacting with 3D scenes by mimicking human data is a key research challenge with significant implications for robotics and real-world applications. However, existing methodologies and benchmarks are constrained by the use of small-scale, manually collected demonstrations, lacking the general dataset and benchmark support necessary to explore scene geometry generalization effectively. To address this gap, we introduce Mimicking-Bench, the first comprehensive benchmark designed for generalizable humanoid-scene interaction learning through mimicking large-scale human animation references. Mimicking-Bench includes six household full-body humanoid-scene interaction tasks, covering 11K diverse object shapes, along with 20K synthetic and 3K real-world human interaction skill references. We construct a complete humanoid skill learning pipeline and benchmark approaches for motion retargeting, motion tracking, imitation learning, and their various combinations. Extensive experiments highlight the value of human mimicking for skill learning, revealing key challenges and research directions.
arxiv情報
著者 | Yun Liu,Bowen Yang,Licheng Zhong,He Wang,Li Yi |
発行日 | 2024-12-23 17:27:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google