要約
強化学習(RL)は、さまざまなロボットタスクで顕著な成功を収めています。
ただし、実際のシナリオ、特に接触豊富な環境での展開は、多くの場合、重要な安全性と安定性の側面を見落としています。
受動性保証のないポリシーは、システムの不安定性をもたらし、ロボット、その環境、および人間のオペレーターにリスクをもたらす可能性があります。
この作業では、接触豊富なタスクに展開されたときの従来のRLポリシーの制限を調査し、これらの課題に答えるためにトレーニングと展開の両方でエネルギーベースのパッシブコントロールと安全なRLの組み合わせを調査します。
まず、標準のRLポリシーが接触豊富なシナリオの安定性を満たさないという発見を明らかにします。
第二に、安全なRL定式化にエネルギーベースの制約を備えたA \ textIT {passivity-aware} RLポリシートレーニングを導入します。
最後に、展開中に\ textIT {passivity-ensured}制御のポリシー出力に受動性フィルターが発揮されます。
私たちは、接触豊富なロボット迷路探査タスクに関する比較研究を実施し、学習受動性ポリシーの効果と受動性供給制御の重要性を評価します。
実験は、受動性と存在するRLポリシーが、トレーニングで高いタスクの完了を達成したとしても、展開のエネルギー制約を容易に違反することを示しています。
結果は、提案されたアプローチが受動性フィルタリングを通じて制御の安定性を保証し、受動性を認識するトレーニングを通じてエネルギー効率を向上させることを示しています。
実際の実験のビデオは、補足資料として入手できます。
また、\ href {https://huggingface.co/anonymous998/passiverl/tree/main}でトレーニング前のチェックポイントモデルとオフラインデータをリリースします。
要約(オリジナル)
Reinforcement learning (RL) has achieved remarkable success in various robotic tasks; however, its deployment in real-world scenarios, particularly in contact-rich environments, often overlooks critical safety and stability aspects. Policies without passivity guarantees can result in system instability, posing risks to robots, their environments, and human operators. In this work, we investigate the limitations of traditional RL policies when deployed in contact-rich tasks and explore the combination of energy-based passive control with safe RL in both training and deployment to answer these challenges. Firstly, we reveal the discovery that standard RL policy does not satisfy stability in contact-rich scenarios. Secondly, we introduce a \textit{passivity-aware} RL policy training with energy-based constraints in our safe RL formulation. Lastly, a passivity filter is exerted on the policy output for \textit{passivity-ensured} control during deployment. We conduct comparative studies on a contact-rich robotic maze exploration task, evaluating the effects of learning passivity-aware policies and the importance of passivity-ensured control. The experiments demonstrate that a passivity-agnostic RL policy easily violates energy constraints in deployment, even though it achieves high task completion in training. The results show that our proposed approach guarantees control stability through passivity filtering and improves the energy efficiency through passivity-aware training. A video of real-world experiments is available as supplementary material. We also release the checkpoint model and offline data for pre-training at \href{https://huggingface.co/Anonymous998/passiveRL/tree/main}{Hugging Face}.
arxiv情報
著者 | Heng Zhang,Gokhan Solak,Sebastian Hjorth,Arash Ajoudani |
発行日 | 2025-06-12 17:41:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google