CHEQ-ing the Box: Safe Variable Impedance Learning for Robotic Polishing

要約

ロボットシステムは産業オートメーションにますます採用されており、研磨などの接触が多い作業では、器用さや準拠した行動が必要とされます。
これらのタスクはモデル化が難しく、古典的な制御が困難になります。
深層強化学習 (RL) は、データから直接モデルと制御ポリシーを学習できるようにすることで、有望なソリューションを提供します。
ただし、現実世界の問題への適用は、データの非効率性と安全でない探索によって制限されます。
アダプティブ ハイブリッド RL 手法は、古典的な制御と RL を適応的にブレンドし、制御による構造と RL からの学習という両方の長所を組み合わせます。
これにより、データ効率と探査の安全性が向上しました。
ただし、ハードウェア アプリケーションとしての可能性は依然として探求されておらず、物理システムでの評価はこれまで行われていません。
このような評価は、現実世界の設定におけるこれらの方法の実用性と有効性を完全に評価するために重要です。
この研究では、正確な力と速度の追跡を必要とするタスクである、可変インピーダンスを使用したロボット研磨のためのハイブリッド RL アルゴリズム CHEQ の実験的デモンストレーションを示します。
シミュレーションでは、可変インピーダンスが研磨性能を向上させることを示しています。
スタンドアロン RL とアダプティブ ハイブリッド RL を比較し、CHEQ が安全上の制約を遵守しながら効果的な学習を達成することを示します。
ハードウェア上では、CHEQ は効果的な研磨動作を実現し、わずか 8 時間のトレーニングを必要とし、わずか 5 回の失敗しか発生しません。
これらの結果は、ハードウェアで直接トレーニングされた現実世界の接触の多いタスクに対するアダプティブ ハイブリッド RL の可能性を強調しています。

要約(オリジナル)

Robotic systems are increasingly employed for industrial automation, with contact-rich tasks like polishing requiring dexterity and compliant behaviour. These tasks are difficult to model, making classical control challenging. Deep reinforcement learning (RL) offers a promising solution by enabling the learning of models and control policies directly from data. However, its application to real-world problems is limited by data inefficiency and unsafe exploration. Adaptive hybrid RL methods blend classical control and RL adaptively, combining the strengths of both: structure from control and learning from RL. This has led to improvements in data efficiency and exploration safety. However, their potential for hardware applications remains underexplored, with no evaluations on physical systems to date. Such evaluations are critical to fully assess the practicality and effectiveness of these methods in real-world settings. This work presents an experimental demonstration of the hybrid RL algorithm CHEQ for robotic polishing with variable impedance, a task requiring precise force and velocity tracking. In simulation, we show that variable impedance enhances polishing performance. We compare standalone RL with adaptive hybrid RL, demonstrating that CHEQ achieves effective learning while adhering to safety constraints. On hardware, CHEQ achieves effective polishing behaviour, requiring only eight hours of training and incurring just five failures. These results highlight the potential of adaptive hybrid RL for real-world, contact-rich tasks trained directly on hardware.

arxiv情報

著者 Emma Cramer,Lukas Jäschke,Sebastian Trimpe
発行日 2025-01-14 10:13:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク