要約
ヒューマノイド ロボットは、さまざまな移動操作タスクを実行するように設計されています。
しかし、高次元で不安定なダイナミクスや、接触が多い複雑なタスクの性質により、課題に直面しています。
モデルベースの最適制御方法は、正確かつ体系的な制御を提供しますが、計算の複雑さと正確な接触感知によって制限されます。
一方、強化学習 (RL) は堅牢性を提供し、高次元空間を処理しますが、非効率な学習、不自然な動き、シミュレーションと現実のギャップに悩まされます。
これらの課題に対処するために、モデルベースの軌道最適化と RL を組み合わせて堅牢な全身運動操作を実現するエンドツーエンドのパイプラインである Opt2Skill を導入します。
差分動的計画法 (DDP) を使用して Digit ヒューマノイド ロボットの参照モーションを生成し、これらの軌道を追跡するための RL ポリシーをトレーニングします。
私たちの結果は、Opt2Skill がトレーニング効率とタスクパフォーマンスの両方において純粋な RL メソッドよりも優れており、トルク制限を考慮した最適な軌道により軌道追跡を強化していることを示しています。
私たちは、そのアプローチを実際のアプリケーションにうまく移すことができました。
要約(オリジナル)
Humanoid robots are designed to perform diverse loco-manipulation tasks. However, they face challenges due to their high-dimensional and unstable dynamics, as well as the complex contact-rich nature of the tasks. Model-based optimal control methods offer precise and systematic control but are limited by high computational complexity and accurate contact sensing. On the other hand, reinforcement learning (RL) provides robustness and handles high-dimensional spaces but suffers from inefficient learning, unnatural motion, and sim-to-real gaps. To address these challenges, we introduce Opt2Skill, an end-to-end pipeline that combines model-based trajectory optimization with RL to achieve robust whole-body loco-manipulation. We generate reference motions for the Digit humanoid robot using differential dynamic programming (DDP) and train RL policies to track these trajectories. Our results demonstrate that Opt2Skill outperforms pure RL methods in both training efficiency and task performance, with optimal trajectories that account for torque limits enhancing trajectory tracking. We successfully transfer our approach to real-world applications.
arxiv情報
著者 | Fukang Liu,Zhaoyuan Gu,Yilin Cai,Ziyi Zhou,Shijie Zhao,Hyunyoung Jung,Sehoon Ha,Yue Chen,Danfei Xu,Ye Zhao |
発行日 | 2024-12-06 17:50:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google