Robot Deformable Object Manipulation via NMPC-generated Demonstrations in Deep Reinforcement Learning

要約

この作業では、デモンストレーション強化強化学習(RL)に基づいて、ロボットによる変形可能なオブジェクト操作に関する研究を実施しました。
RLの学習効率を向上させるために、複数の側面からのデモデータの利用を強化し、HGCR-DDPGアルゴリズムを提案しました。
把握ポイント選択のために新しい高次元ファジーアプローチ、洗練された動作クローニング方法で、虹色のDDPGでのデータ駆動型学習を強化し、順次政策学習戦略を使用します。
ベースラインアルゴリズム(Rainbow-DDPG)と比較して、提案されたHGCR-DDPGはグローバル平均報酬の2.01倍を達成し、グローバル平均標準偏差をベースラインアルゴリズムの45%に減らしました。
デモンストレーションコレクションの人件費を削減するために、非線形モデル予測制御(NMPC)に基づく低コストのデモコレクション方法を提案しました。
シミュレーション実験結果は、NMPCを介して収集されたデモンストレーションを使用してHGCR-DDPGをトレーニングできることを示しており、人間のデモンストレーションで得られた結果と同等の結果を達成できます。
実際の環境で提案された方法の実現可能性を検証するために、変形可能なオブジェクト操作を含む物理実験を実施しました。
生地を操作して、斜めの折りたたみ、中央軸の折りたたみ、平坦化の3つのタスクを実行しました。
実験結果は、提案された方法が、これら3つのタスクでそれぞれ83.3%、80%、および100%の成功率を達成し、アプローチの有効性を検証したことを示しています。
ロボット操作の現在の大型モデルアプローチと比較して、提案されたアルゴリズムは軽量であり、計算リソースが少なく、特定のタスクにタスク固有のカスタマイズと効率的な適応性を提供します。

要約(オリジナル)

In this work, we conducted research on deformable object manipulation by robots based on demonstration-enhanced reinforcement learning (RL). To improve the learning efficiency of RL, we enhanced the utilization of demonstration data from multiple aspects and proposed the HGCR-DDPG algorithm. It uses a novel high-dimensional fuzzy approach for grasping-point selection, a refined behavior-cloning method to enhance data-driven learning in Rainbow-DDPG, and a sequential policy-learning strategy. Compared to the baseline algorithm (Rainbow-DDPG), our proposed HGCR-DDPG achieved 2.01 times the global average reward and reduced the global average standard deviation to 45% of that of the baseline algorithm. To reduce the human labor cost of demonstration collection, we proposed a low-cost demonstration collection method based on Nonlinear Model Predictive Control (NMPC). Simulation experiment results show that demonstrations collected through NMPC can be used to train HGCR-DDPG, achieving comparable results to those obtained with human demonstrations. To validate the feasibility of our proposed methods in real-world environments, we conducted physical experiments involving deformable object manipulation. We manipulated fabric to perform three tasks: diagonal folding, central axis folding, and flattening. The experimental results demonstrate that our proposed method achieved success rates of 83.3%, 80%, and 100% for these three tasks, respectively, validating the effectiveness of our approach. Compared to current large-model approaches for robot manipulation, the proposed algorithm is lightweight, requires fewer computational resources, and offers task-specific customization and efficient adaptability for specific tasks.

arxiv情報

著者 Haoyuan Wang,Zihao Dong,Hongliang Lei,Zejia Zhang,Weizhuang Shi,Wei Luo,Weiwei Wan,Jian Huang
発行日 2025-02-17 02:41:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク