Bresa: Bio-inspired Reflexive Safe Reinforcement Learning for Contact-Rich Robotic Tasks

要約

強化学習(RL)ベースのロボットシステムの安全性を確保することは、特に構造化されていない環境内の接触豊富なタスクでは、重大な課題です。
最先端の安全なRLアプローチは、安全な探査または高レベルの回復メカニズムを通じてリスクを軽減しますが、潜在的な危険に対する反射的な反応が非常に重要である低レベルの実行安全性を見落としていることがよくあります。
同様に、可変インピーダンス制御(VIC)は、ロボットの機械的応答を調整することにより安全性を高めますが、タスク全体の剛性や減衰などのパラメーターを適応させる体系的な方法がありません。
この論文では、生物学的反射に触発されたバイオ風の反射階層セーフRLメソッドであるブレサを提案します。
私たちの方法は、アクションリスクを評価し、タスクソルバーよりも高い頻度で動作する安全批評家ネットワークを組み込むために、安全学習からのタスク学習を切り離します。
既存の回復ベースの方法とは異なり、当社の安全批評家は低レベルの制御層で機能し、安全でない状態が発生したときにリアルタイムの介入を可能にします。
より低い頻度で実行されるタスク解決RLポリシーは、高レベルの計画(意思決定)に焦点を当てていますが、安全批評家は瞬間的な安全補正を保証します。
連絡先が豊富なロボットタスクを含む複数のタスクでBRESAを検証し、安全性を高めるための再帰的な能力と、予期せぬ動的環境での適応性を実証します。
私たちの結果は、BRESAがベースラインを上回り、高レベルの計画と低レベルの実行の間のギャップを埋める堅牢で反射的な安全メカニズムを提供することを示しています。
実際の実験と補足資料は、プロジェクトWebサイトhttps://jack-sherman01.github.io/bresaで入手できます。

要約(オリジナル)

Ensuring safety in reinforcement learning (RL)-based robotic systems is a critical challenge, especially in contact-rich tasks within unstructured environments. While the state-of-the-art safe RL approaches mitigate risks through safe exploration or high-level recovery mechanisms, they often overlook low-level execution safety, where reflexive responses to potential hazards are crucial. Similarly, variable impedance control (VIC) enhances safety by adjusting the robot’s mechanical response, yet lacks a systematic way to adapt parameters, such as stiffness and damping throughout the task. In this paper, we propose Bresa, a Bio-inspired Reflexive Hierarchical Safe RL method inspired by biological reflexes. Our method decouples task learning from safety learning, incorporating a safety critic network that evaluates action risks and operates at a higher frequency than the task solver. Unlike existing recovery-based methods, our safety critic functions at a low-level control layer, allowing real-time intervention when unsafe conditions arise. The task-solving RL policy, running at a lower frequency, focuses on high-level planning (decision-making), while the safety critic ensures instantaneous safety corrections. We validate Bresa on multiple tasks including a contact-rich robotic task, demonstrating its reflexive ability to enhance safety, and adaptability in unforeseen dynamic environments. Our results show that Bresa outperforms the baseline, providing a robust and reflexive safety mechanism that bridges the gap between high-level planning and low-level execution. Real-world experiments and supplementary material are available at project website https://jack-sherman01.github.io/Bresa.

arxiv情報

著者 Heng Zhang,Gokhan Solak,Arash Ajoudani
発行日 2025-03-27 21:11:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク