Estimator-Coupled Reinforcement Learning for Robust Purely Tactile In-Hand Manipulation

要約

この論文では、ロボットの手による操作のための (強化) 学習ベースのコントローラーと状態推定器を単純に組み合わせる際の問題を特定し、それに対処します。
具体的には、手を下に向けて、純粋に触覚的で、目標条件に基づいて、器用に手の向きを変えるという難しい課題に取り組みます。
利用可能なセンシングが限られているため、オブジェクトの状態を十分に理解している場合にシミュレーションで実行可能な制御戦略の多くは、正確な状態推定を可能にしません。
したがって、コントローラーと推定器を個別にトレーニングし、テスト時に 2 つを組み合わせると、パフォーマンスが低下します。
この問題は、シミュレーションでのトレーニング中にすでに制御ポリシーを状態推定器に結合することで解決します。
このアプローチは、エンドツーエンドのポリシー学習よりも解釈可能性の利点を維持しながら、より堅牢な状態推定とタスクの全体的なパフォーマンスの向上につながります。
GPU アクセラレーションを使用した実装により、単一の低コスト GPU でスクラッチから学習する場合のトレーニング時間の中央値はわずか 6.5 時間です。
DLR-Hand II を使用した 4 つの大きく異なるオブジェクト形状のシミュレーション実験では、アプローチのパフォーマンスの詳細な分析を提供します。
SO(3) の $\pi/2$ 離散化において 4 つのオブジェクトを 24 方向すべてに回転させることで、sim2real 転送が成功することを実証します。これは、これほど多様な形状のセットでは決して達成できませんでした。
最後に、私たちの方法では、立方体の向きを 9 つの目標 (中央値) に連続的に変更できますが、この困難な設定では、これまでの方法では達成できませんでした。

要約(オリジナル)

This paper identifies and addresses the problems with naively combining (reinforcement) learning-based controllers and state estimators for robotic in-hand manipulation. Specifically, we tackle the challenging task of purely tactile, goal-conditioned, dextrous in-hand reorientation with the hand pointing downwards. Due to the limited sensing available, many control strategies that are feasible in simulation when having full knowledge of the object’s state do not allow for accurate state estimation. Hence, separately training the controller and the estimator and combining the two at test time leads to poor performance. We solve this problem by coupling the control policy to the state estimator already during training in simulation. This approach leads to more robust state estimation and overall higher performance on the task while maintaining an interpretability advantage over end-to-end policy learning. With our GPU-accelerated implementation, learning from scratch takes a median training time of only 6.5 hours on a single, low-cost GPU. In simulation experiments with the DLR-Hand II and for four significantly different object shapes, we provide an in-depth analysis of the performance of our approach. We demonstrate the successful sim2real transfer by rotating the four objects to all 24 orientations in the $\pi/2$ discretization of SO(3), which has never been achieved for such a diverse set of shapes. Finally, our method can reorient a cube consecutively to nine goals (median), which was beyond the reach of previous methods in this challenging setting.

arxiv情報

著者 Lennart Röstel,Johannes Pitz,Leon Sievers,Berthold Bäuml
発行日 2023-11-07 15:19:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク