Learning Time-Optimal and Speed-Adjustable Tactile In-Hand Manipulation

要約

複数の指を使った手の操作は難しい問題ですが、最近、深層強化学習手法の出現により実現可能になりました。
このタスクへの貢献のほとんどは堅牢性と汎用性の向上をもたらしましたが、この論文では、手で操作を実行できる速度の重要なパフォーマンス尺度について取り上げます。
永久的な力の閉鎖と触覚フィードバックのみを使用した SO(3) の目標条件付き再配向の複雑な設定に対して、以前のアプローチよりも大幅に高速に手の再配向を実行できる強化学習ポリシーを提示します (つまり、手のトルクと位置センサーを使用)

さらに、速度を調整できるようにポリシーをトレーニングし、展開中に操作対象オブジェクトの平均方向速度を設定できるようにする方法を示します。
この目的を達成するために、我々は、最適な時間と速度調整可能な手持ち操作のための適切かつ最小限の強化学習目標と、シミュレーションにおける広範な実験に基づく分析を提示します。
また、学習したポリシーを実際の DLR-Hand II にゼロショットで転送することを、幅広いターゲット速度と視覚入力なしで最速の器用な手持ち操作で実証します。

要約(オリジナル)

In-hand manipulation with multi-fingered hands is a challenging problem that recently became feasible with the advent of deep reinforcement learning methods. While most contributions to the task brought improvements in robustness and generalization, this paper addresses the critical performance measure of the speed at which an in-hand manipulation can be performed. We present reinforcement learning policies that can perform in-hand reorientation significantly faster than previous approaches for the complex setting of goal-conditioned reorientation in SO(3) with permanent force closure and tactile feedback only (i.e., using the hand’s torque and position sensors). Moreover, we show how policies can be trained to be speed-adjustable, allowing for setting the average orientation speed of the manipulated object during deployment. To this end, we present suitable and minimalistic reinforcement learning objectives for time-optimal and speed-adjustable in-hand manipulation, as well as an analysis based on extensive experiments in simulation. We also demonstrate the zero-shot transfer of the learned policies to the real DLR-Hand II with a wide range of target speeds and the fastest dextrous in-hand manipulation without visual inputs.

arxiv情報

著者 Johannes Pitz,Lennart Röstel,Leon Sievers,Berthold Bäuml
発行日 2024-11-20 09:25:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク