A Grasp Pose is All You Need: Learning Multi-fingered Grasping with Deep Reinforcement Learning from Vision and Touch

要約

多指ロボットハンドにより、ロボットは高度な操作タスクを実行できるようになる可能性があります。
しかし、擬人化された手で物体を掴むようにロボットに教えることは、状態空間と動作空間が高次元であるため、困難な問題です。
深層強化学習 (DRL) は、明示的な環境や手作業によるモデリングを行わずに、この種の問題に対する制御ポリシーを設計する手法を提供します。
ただし、最先端のモデルフリー アルゴリズムを使用してこれらのポリシーをトレーニングすることは、複数の指を持つ手にとって非常に困難です。
主な問題は、このような高次元の問題では環境の効率的な探索が不可能であるため、政策最適化の初期段階で問題が発生することです。
これに対処する 1 つの可能性は、オフラインのタスク デモンストレーションに依存することです。
ただし、多くの場合、これは時間と計算リソースの点で非常に困難です。
この研究では、これらの要件を克服し、iCub ヒューマノイドの擬人化された手に対して A Grasp Pose is All You Need (G-PAYN) メソッドを提案します。
ポリシーのトレーニングを初期化するためにタスクのデモンストレーションを自動的に収集するアプローチを開発します。
提案された把握パイプラインは、動きを開始するために使用される外部アルゴリズムによって生成された把握ポーズから始まります。
次に、制御ポリシー (提案された G-PAYN で事前にトレーニングされた) を使用して、オブジェクトに到達して取得します。
iCub を MuJoCo シミュレーターにデプロイし、それを使用して YCB-Video データセットのオブジェクトを使用したアプローチをテストしました。
結果は、ベースラインに対する成功率と実行時間の点で、G-PAYN が検討した設定で現在の DRL 技術よりも優れていることを示しています。
実験を再現するコードは受理され次第公開されます。

要約(オリジナル)

Multi-fingered robotic hands could enable robots to perform sophisticated manipulation tasks. However, teaching a robot to grasp objects with an anthropomorphic hand is an arduous problem due to the high dimensionality of state and action spaces. Deep Reinforcement Learning (DRL) offers techniques to design control policies for this kind of problems without explicit environment or hand modeling. However, training these policies with state-of-the-art model-free algorithms is greatly challenging for multi-fingered hands. The main problem is that an efficient exploration of the environment is not possible for such high-dimensional problems, thus causing issues in the initial phases of policy optimization. One possibility to address this is to rely on off-line task demonstrations. However, oftentimes this is incredibly demanding in terms of time and computational resources. In this work, we overcome these requirements and propose the A Grasp Pose is All You Need (G-PAYN) method for the anthropomorphic hand of the iCub humanoid. We develop an approach to automatically collect task demonstrations to initialize the training of the policy. The proposed grasping pipeline starts from a grasp pose generated by an external algorithm, used to initiate the movement. Then a control policy (previously trained with the proposed G-PAYN) is used to reach and grab the object. We deployed the iCub into the MuJoCo simulator and use it to test our approach with objects from the YCB-Video dataset. The results show that G-PAYN outperforms current DRL techniques in the considered setting, in terms of success rate and execution time with respect to the baselines. The code to reproduce the experiments will be released upon acceptance.

arxiv情報

著者 Federico Ceola,Elisa Maiettini,Lorenzo Rosasco,Lorenzo Natale
発行日 2023-06-06 08:09:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク