要約
我々は、MuJoCo MPCを用いて、最近導入された全身ヒューマノイド制御のベンチマークHumanoidBenchに取り組む。HumanoidBenchの疎な報酬関数を最適化すると、望ましくない非現実的な動作になることを発見しました。そこで、タスク間でロボットの動作を安定させる正則化項を提案します。現在、タスクのサブセットで評価を行っており、提案する報酬関数により、現実的な姿勢と滑らかな制御信号を維持しながら、HumanoidBenchの最高得点を達成できることを実証しています。我々のコードは公開されており、MuJoCo MPCの一部となる予定です。
要約(オリジナル)
We tackle the recently introduced benchmark for whole-body humanoid control HumanoidBench using MuJoCo MPC. We find that sparse reward functions of HumanoidBench yield undesirable and unrealistic behaviors when optimized; therefore, we propose a set of regularization terms that stabilize the robot behavior across tasks. Current evaluations on a subset of tasks demonstrate that our proposed reward function allows achieving the highest HumanoidBench scores while maintaining realistic posture and smooth control signals. Our code is publicly available and will become a part of MuJoCo MPC, enabling rapid prototyping of robot behaviors.
arxiv情報
著者 | Moritz Meser,Aditya Bhatt,Boris Belousov,Jan Peters |
発行日 | 2024-08-01 07:27:18+00:00 |
arxivサイト | arxiv_id(pdf) |