Stable In-hand Manipulation with Finger Specific Multi-agent Shadow Reward

要約

深層強化学習は、複数の指を使った器用な手の操作タスクにおける制御の自由度とオブジェクトとの複雑な相互作用を解決する能力を示しました。
現在の DRL アプローチは、トレーニングを容易にするために密な報酬よりも疎な報酬を優先しますが、操作プロセス中の行動制約が不足しているため、安全性が重要な手持ち操作タスクには不十分な攻撃的で不安定なポリシーにつながります。
高密度の報酬は、継続的な報酬制約を持つ安定した操作行動を学習するようにポリシーを調整できますが、経験的に定義するのが難しく、最適に収束するのが遅くなります。
この研究では、学習プロセス中に近似される DRL の一般的なユーティリティである状態アクション占有測定に基づいて、密な報酬の形で安定した操作制約を決定する、フィンガー固有のマルチエージェント シャドウ報酬 (FMSR) 手法を提案します。
隣接するエージェント間での情報共有 (IS) により、コンセンサス トレーニングを可能にして収束を加速します。
このメソッドは、Shadow Hand 上の 2 つのハンド操作タスクで評価されます。
結果は、FMSR + IS がトレーニングでより速く収束し、従来の高密度報酬よりも高いタスク成功率と優れた操作安定性を実現することを示しています。
この比較は、FMSR+IS が動作制約があっても同等の成功率を達成するものの、まばらな報酬でトレーニングされたポリシーよりも操作の安定性がはるかに優れていることを示しています。

要約(オリジナル)

Deep Reinforcement Learning has shown its capability to solve the high degrees of freedom in control and the complex interaction with the object in the multi-finger dexterous in-hand manipulation tasks. Current DRL approaches prefer sparse rewards to dense rewards for the ease of training but lack behavior constraints during the manipulation process, leading to aggressive and unstable policies that are insufficient for safety-critical in-hand manipulation tasks. Dense rewards can regulate the policy to learn stable manipulation behaviors with continuous reward constraints but are hard to empirically define and slow to converge optimally. This work proposes the Finger-specific Multi-agent Shadow Reward (FMSR) method to determine the stable manipulation constraints in the form of dense reward based on the state-action occupancy measure, a general utility of DRL that is approximated during the learning process. Information Sharing (IS) across neighboring agents enables consensus training to accelerate the convergence. The methods are evaluated in two in-hand manipulation tasks on the Shadow Hand. The results show FMSR+IS converges faster in training, achieving a higher task success rate and better manipulation stability than conventional dense reward. The comparison indicates FMSR+IS achieves a comparable success rate even with the behavior constraint but much better manipulation stability than the policy trained with a sparse reward.

arxiv情報

著者 Lingfeng Tao,Jiucai Zhang,Xiaoli Zhang
発行日 2023-09-13 23:12:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク