Q-learning-based Model-free Safety Filter

要約

現実世界のロボット工学において安全フィルターを介して安全性を確保することは、特にシステムダイナミクスが複雑であるか利用できない場合に、重大な課題を伴います。
この問題に対処するために、最近、学習ベースの安全フィルターが人気を集めています。これは、モデルベースの方法とモデルフリーの方法に分類できます。
既存のモデルベースのアプローチは、システム モデル (例: コントロール アフィン) に関するさまざまな仮定を必要とするため、複雑なシステムでの適用が制限されます。また、既存のモデルフリーのアプローチは、標準的な RL アルゴリズムに大幅な変更を必要とし、汎用性に欠けています。
この論文では、シンプルでプラグインアンドプレイの効果的なモデルフリーの安全フィルター学習フレームワークを提案します。
新しい報酬公式を導入し、Q 学習を使用して Q 値関数を学習し、潜在的に安全でないアクションをフィルタリングすることで任意のタスク固有の名目ポリシーを保護します。
フィルタリング プロセスで使用されるしきい値は、理論分析によってサポートされています。
モデルフリーの性質とシンプルさにより、私たちのフレームワークはさまざまな RL アルゴリズムとシームレスに統合できます。
ダブルインテグレータと Dubin の自動車システムのシミュレーションを通じて提案されたアプローチを検証し、柔らかいロボットの手足を使った現実世界の実験でその有効性を実証します。

要約(オリジナル)

Ensuring safety via safety filters in real-world robotics presents significant challenges, particularly when the system dynamics is complex or unavailable. To handle this issue, learning-based safety filters recently gained popularity, which can be classified as model-based and model-free methods. Existing model-based approaches requires various assumptions on system model (e.g., control-affine), which limits their application in complex systems, and existing model-free approaches need substantial modifications to standard RL algorithms and lack versatility. This paper proposes a simple, plugin-and-play, and effective model-free safety filter learning framework. We introduce a novel reward formulation and use Q-learning to learn Q-value functions to safeguard arbitrary task specific nominal policies via filtering out their potentially unsafe actions. The threshold used in the filtering process is supported by our theoretical analysis. Due to its model-free nature and simplicity, our framework can be seamlessly integrated with various RL algorithms. We validate the proposed approach through simulations on double integrator and Dubin’s car systems and demonstrate its effectiveness in real-world experiments with a soft robotic limb.

arxiv情報

著者 Guo Ning Sue,Yogita Choudhary,Richard Desatnik,Carmel Majidi,John Dolan,Guanya Shi
発行日 2024-11-29 16:16:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, cs.SY, eess.SY パーマリンク