Dextrous Tactile In-Hand Manipulation Using a Modular Reinforcement Learning Architecture


オブジェクトを特定の目標方向に再配向するタスクの場合 (軸を中心に無限に回転させるのではなく)、オブジェクトの状態を常に推定する必要があるため、外部センサーの欠如は追加の基本的な課題です。
この論文では、トルク制御された DLR-Hand II を使用して、${\pi}$/2 ラスターの 24 の可能な目標方向のいずれかに立方体を再配置するタスクが可能であることを示します。
タスクは、モジュール式の深層強化学習アーキテクチャを使用してシミュレーションで学習されます。実際のポリシーには 0.5 秒の小さな観測時間ウィンドウしかありませんが、によって生成されたデータでトレーニングされた深層微分可能粒子フィルターを介して推定される明示的な入力としてキューブの状態を取得します。
シミュレーションでは、大幅なドメインのランダム化を適用しながら、92% の成功率に達しました。
実際のロボット システムでのゼロ ショット Sim2Real 転送により、24 の目標方向すべてに高い成功率で到達できます。


Dextrous in-hand manipulation with a multi-fingered robotic hand is a challenging task, esp. when performed with the hand oriented upside down, demanding permanent force-closure, and when no external sensors are used. For the task of reorienting an object to a given goal orientation (vs. infinitely spinning it around an axis), the lack of external sensors is an additional fundamental challenge as the state of the object has to be estimated all the time, e.g., to detect when the goal is reached. In this paper, we show that the task of reorienting a cube to any of the 24 possible goal orientations in a ${\pi}$/2-raster using the torque-controlled DLR-Hand II is possible. The task is learned in simulation using a modular deep reinforcement learning architecture: the actual policy has only a small observation time window of 0.5s but gets the cube state as an explicit input which is estimated via a deep differentiable particle filter trained on data generated by running the policy. In simulation, we reach a success rate of 92% while applying significant domain randomization. Via zero-shot Sim2Real-transfer on the real robotic system, all 24 goal orientations can be reached with a high success rate.


著者 Johannes Pitz,Lennart Röstel,Leon Sievers,Berthold Bäuml
発行日 2023-03-08 16:45:18+00:00
