要約
多指ロボットハンドは、ロボットが高度な操作タスクを実行できるようにする可能性を秘めています。
しかし、擬人化された手で物体を掴むようにロボットに教えることは、状態空間と動作空間が高次元であるため、困難な問題です。
深層強化学習 (DRL) は、明示的な環境や手作業によるモデリングを行わずに、この種の問題に対する制御ポリシーを設計する手法を提供します。
ただし、最先端のモデルフリー アルゴリズムは、そのようなポリシーの学習には非効率であることが判明しています。
主な問題は、このような高次元の問題に対しては環境の調査が不可能であり、そのため政策最適化の初期段階が妨げられていることです。
これに対処する 1 つの可能性は、オフライン タスクのデモンストレーションに依存することですが、多くの場合、これは時間と計算リソースの点で要求が高すぎます。
これらの問題に対処するために、iCub ヒューマノイドの擬人化された手に対して A Grasp Pose is All You Need (G-PAYN) メソッドを提案します。
ポリシーのトレーニングを初期化するためにタスクのデモンストレーションを自動的に収集するアプローチを開発します。
提案された把握パイプラインは、動きを開始するために使用される外部アルゴリズムによって生成された把握ポーズから始まります。
次に、制御ポリシー (提案された G-PAYN で事前にトレーニングされた) を使用して、オブジェクトに到達して取得します。
iCub を MuJoCo シミュレーターにデプロイし、それを使用して YCB-Video データセットのオブジェクトを使用したアプローチをテストしました。
結果は、G-PAYN が、ベースラインに対する成功率と実行時間の点で、検討した設定において現在の DRL 技術よりも優れていることを示しています。
実験を再現するコードは論文とともにオープンソースライセンスで公開されています。
要約(オリジナル)
Multi-fingered robotic hands have potential to enable robots to perform sophisticated manipulation tasks. However, teaching a robot to grasp objects with an anthropomorphic hand is an arduous problem due to the high dimensionality of state and action spaces. Deep Reinforcement Learning (DRL) offers techniques to design control policies for this kind of problems without explicit environment or hand modeling. However, state-of-the-art model-free algorithms have proven inefficient for learning such policies. The main problem is that the exploration of the environment is unfeasible for such high-dimensional problems, thus hampering the initial phases of policy optimization. One possibility to address this is to rely on off-line task demonstrations, but, oftentimes, this is too demanding in terms of time and computational resources. To address these problems, we propose the A Grasp Pose is All You Need (G-PAYN) method for the anthropomorphic hand of the iCub humanoid. We develop an approach to automatically collect task demonstrations to initialize the training of the policy. The proposed grasping pipeline starts from a grasp pose generated by an external algorithm, used to initiate the movement. Then a control policy (previously trained with the proposed G-PAYN) is used to reach and grab the object. We deployed the iCub into the MuJoCo simulator and use it to test our approach with objects from the YCB-Video dataset. Results show that G-PAYN outperforms current DRL techniques in the considered setting in terms of success rate and execution time with respect to the baselines. The code to reproduce the experiments is released together with the paper with an open source license.
arxiv情報
著者 | Federico Ceola,Elisa Maiettini,Lorenzo Rosasco,Lorenzo Natale |
発行日 | 2023-07-28 06:50:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google