Symmetry-aware Reinforcement Learning for Robotic Assembly under Partial Observability with a Soft Wrist

要約

この研究では、硬い手首よりも安全に操作でき、低周波数の制御信号に耐えられる柔らかい手首を使用して、ロボット組立ての代表的かつ困難な接触の多いペグインホール作業に取り組みます。
以前の研究では、完全に観察可能な定式化が使用されることが多く、ペグから穴までのポーズの外部セットアップや推定器が必要でした。
対照的に、私たちは部分的に観察可能な定式化とデモンストレーションからの深層強化学習を使用して、純粋に触覚信号と固有受容信号に作用する記憶ベースのエージェントを学習します。
さらに、以前の研究には潜在的な領域の対称性が組み込まれていないため、より大きな空間で解決策を探す必要があります。
代わりに、トレーニング データを増強し、エージェントに対称性を遵守させる補助損失を構築することで、サンプル効率のために対称性を活用することを提案します。
5 つの異なる対称ペグ形状を使用したシミュレーションの結果は、提案したエージェントが状態ベースのエージェントと同等か、それを上回るパフォーマンスを発揮できることを示しています。
特に、サンプルの効率の良さにより、3 時間以内に実際のロボットで直接学習することもできます。

要約(オリジナル)

This study tackles the representative yet challenging contact-rich peg-in-hole task of robotic assembly, using a soft wrist that can operate more safely and tolerate lower-frequency control signals than a rigid one. Previous studies often use a fully observable formulation, requiring external setups or estimators for the peg-to-hole pose. In contrast, we use a partially observable formulation and deep reinforcement learning from demonstrations to learn a memory-based agent that acts purely on haptic and proprioceptive signals. Moreover, previous works do not incorporate potential domain symmetry and thus must search for solutions in a bigger space. Instead, we propose to leverage the symmetry for sample efficiency by augmenting the training data and constructing auxiliary losses to force the agent to adhere to the symmetry. Results in simulation with five different symmetric peg shapes show that our proposed agent can be comparable to or even outperform a state-based agent. In particular, the sample efficiency also allows us to learn directly on the real robot within 3 hours.

arxiv情報

著者 Hai Nguyen,Tadashi Kozuno,Cristian C. Beltran-Hernandez,Masashi Hamaya
発行日 2024-02-28 02:30:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク