要約
シミュレーションでポリシーを学習し、それを現実世界に移すことは、器用な操作において有望なアプローチとなっています。
ただし、新しいタスクごとにシミュレーションと現実のギャップを埋めるには、慎重な報酬エンジニアリング、ハイパーパラメーターの調整、システムの特定など、かなりの人的努力が必要です。
この研究では、低レベルのスキルを活用して、より複雑なタスクの課題に対処するシステムを紹介します。
具体的には、以前に取得した回転スキルに基づいて、手持ちオブジェクトの向きを変更するための階層型ポリシーを導入します。
この階層ポリシーは、環境と低レベル スキル ポリシー自体の両方からのフィードバックに基づいて、どの低レベル スキルを実行するかを選択することを学習します。
スクラッチから学習する場合と比較して、階層型ポリシーは配布外の変更に対してより堅牢であり、シミュレーションから現実世界の環境に簡単に移行できます。
さらに、固有受容情報、低レベルのスキル予測、および制御エラーを入力として使用して、時間の経過に伴う物体の姿勢を推定する、一般化可能な物体の姿勢推定器を提案します。
私たちは、システムが対称的なオブジェクトやテクスチャのないオブジェクトを含むオブジェクトの向きを希望のポーズに変更できることを実証します。
要約(オリジナル)
Learning policies in simulation and transferring them to the real world has become a promising approach in dexterous manipulation. However, bridging the sim-to-real gap for each new task requires substantial human effort, such as careful reward engineering, hyperparameter tuning, and system identification. In this work, we present a system that leverages low-level skills to address these challenges for more complex tasks. Specifically, we introduce a hierarchical policy for in-hand object reorientation based on previously acquired rotation skills. This hierarchical policy learns to select which low-level skill to execute based on feedback from both the environment and the low-level skill policies themselves. Compared to learning from scratch, the hierarchical policy is more robust to out-of-distribution changes and transfers easily from simulation to real-world environments. Additionally, we propose a generalizable object pose estimator that uses proprioceptive information, low-level skill predictions, and control errors as inputs to estimate the object pose over time. We demonstrate that our system can reorient objects, including symmetrical and textureless ones, to a desired pose.
arxiv情報
著者 | Haozhi Qi,Brent Yi,Mike Lambeta,Yi Ma,Roberto Calandra,Jitendra Malik |
発行日 | 2025-01-09 18:49:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google