要約
強化学習 (RL) では、多くの場合、各タスクに合わせた綿密なマルコフ決定プロセス (MDP) 設計が必要になります。
この研究は、バネ仕掛けのドアの操作や重い食器洗い機の操作など、複数接触の移動操作タスクの動作合成と制御に対する体系的なアプローチを提案することで、この課題に対処することを目的としています。
モデルベースの軌道オプティマイザーから生成されたタスクごとに 1 つのデモンストレーションのみを使用して、RL ポリシーをトレーニングするタスク独立の MDP を定義します。
私たちのアプローチには適応位相ダイナミクス定式化が組み込まれており、動的不確実性や外部擾乱に対応しながらデモンストレーションを堅牢に追跡します。
私たちの方法を以前のモーション模倣 RL 作品と比較し、学習されたポリシーが考慮されたすべてのタスクにわたってより高い成功率を達成することを示します。
これらのポリシーは、実行中のオブジェクトの再把握や滑りへの対処など、デモンストレーションには存在しない回復操作を学習します。
最後に、ポリシーを実際のロボットに転送することに成功し、アプローチの実用的な実行可能性を実証しました。
要約(オリジナル)
Reinforcement learning (RL) often necessitates a meticulous Markov Decision Process (MDP) design tailored to each task. This work aims to address this challenge by proposing a systematic approach to behavior synthesis and control for multi-contact loco-manipulation tasks, such as navigating spring-loaded doors and manipulating heavy dishwashers. We define a task-independent MDP to train RL policies using only a single demonstration per task generated from a model-based trajectory optimizer. Our approach incorporates an adaptive phase dynamics formulation to robustly track the demonstrations while accommodating dynamic uncertainties and external disturbances. We compare our method against prior motion imitation RL works and show that the learned policies achieve higher success rates across all considered tasks. These policies learn recovery maneuvers that are not present in the demonstration, such as re-grasping objects during execution or dealing with slippages. Finally, we successfully transfer the policies to a real robot, demonstrating the practical viability of our approach.
arxiv情報
著者 | Jean-Pierre Sleiman,Mayank Mittal,Marco Hutter |
発行日 | 2024-10-17 17:46:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google