要約
ロボットシステムは、産業自動化にますます採用されており、磨きや準拠の動作を必要とする研磨などの接触豊富なタスクがあります。
これらのタスクをモデル化するのは難しく、古典的な制御が困難になります。
Deep Renection Learning(RL)は、モデルの学習をデータから直接制御することを可能にすることにより、有望なソリューションを提供します。
ただし、実際の問題への適用は、データの非効率性と安全でない探索によって制限されます。
適応型ハイブリッドRLメソッドは、クラシックコントロールとRLを適応的にブレンドし、RLからの制御と学習からの構造の両方の強度を組み合わせて組み合わせています。
これにより、データの効率と探査の安全性が向上しました。
ただし、ハードウェアアプリケーションの可能性は未定であり、これまでの物理システムに関する評価はありません。
このような評価は、実際の設定でこれらの方法の実用性と有効性を完全に評価するために重要です。
この作業は、さまざまなインピーダンスを備えたロボット研磨のためのハイブリッドRLアルゴリズムCHEQの実験的な実証を提示します。これは、正確な力と速度追跡を必要とするタスクです。
シミュレーションでは、可変インピーダンスが研磨性能を高めることを示します。
スタンドアロンRLを適応性のあるハイブリッドRLと比較し、CHEQが安全性の制約を順守しながら効果的な学習を達成することを示しています。
ハードウェアでは、CHEQは効果的な研磨挙動を実現し、わずか8時間のトレーニングを必要とし、5つの障害しか必要としません。
これらの結果は、ハードウェアで直接トレーニングされた、実際のワールド、連絡先が豊富なタスクの適応ハイブリッドRLの可能性を強調しています。
要約(オリジナル)
Robotic systems are increasingly employed for industrial automation, with contact-rich tasks like polishing requiring dexterity and compliant behaviour. These tasks are difficult to model, making classical control challenging. Deep reinforcement learning (RL) offers a promising solution by enabling the learning of models and control policies directly from data. However, its application to real-world problems is limited by data inefficiency and unsafe exploration. Adaptive hybrid RL methods blend classical control and RL adaptively, combining the strengths of both: structure from control and learning from RL. This has led to improvements in data efficiency and exploration safety. However, their potential for hardware applications remains underexplored, with no evaluations on physical systems to date. Such evaluations are critical to fully assess the practicality and effectiveness of these methods in real-world settings. This work presents an experimental demonstration of the hybrid RL algorithm CHEQ for robotic polishing with variable impedance, a task requiring precise force and velocity tracking. In simulation, we show that variable impedance enhances polishing performance. We compare standalone RL with adaptive hybrid RL, demonstrating that CHEQ achieves effective learning while adhering to safety constraints. On hardware, CHEQ achieves effective polishing behaviour, requiring only eight hours of training and incurring just five failures. These results highlight the potential of adaptive hybrid RL for real-world, contact-rich tasks trained directly on hardware.
arxiv情報
著者 | Emma Cramer,Lukas Jäschke,Sebastian Trimpe |
発行日 | 2025-06-02 09:06:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google