Back to Base: Towards Hands-Off Learning via Safe Resets with Reach-Avoid Safety Filters

要約

安全上の制約を保証しながらタスクを達成するコントローラーを設計することは、依然として大きな課題です。
私たちは多くの場合、エージェントが環境探索などの名目上のタスクで適切にパフォーマンスを発揮すると同時に、危険な状態を回避し、特定の時間までに目的のターゲットに戻ることができるようにしたいと考えています。
特に私たちは、現実世界での強化学習のための安全で効率的な、人手を使わないトレーニングの設定に動機付けられています。
人間の介入なしにロボットが安全かつ自律的に目的の領域 (充電ステーションなど) にリセットできるようにすることで、効率を高め、トレーニングを促進することができます。
制御バリア機能に基づく安全フィルターなどの安全フィルターは、安全性を名目上の制御目標から切り離し、安全性を厳密に保証します。
それらの成功にもかかわらず、制御制約とシステムの不確実性を伴う一般的な非線形システムに対してこれらの関数を構築することは未解決の問題のままです。
本稿では、到達回避問題に関連する値関数から得られる安全フィルタを紹介します。
提案された安全フィルターは、公称コントローラーの変更を最小限に抑えながら、安全でない領域を回避し、システムを望ましい目標セットに戻すように導きます。
安全なリセットを可能にしながらポリシーのパフォーマンスを維持することで、効率的なハンズオフ強化学習が可能になり、現実世界のロボットの安全なトレーニングの実現可能性が高まります。
修正されたカートポール安定化問題でスイングアップ タスクを安全にトレーニングするための、修正されたバージョンのソフト アクター – クリティカルを使用したアプローチを示します。

要約(オリジナル)

Designing controllers that accomplish tasks while guaranteeing safety constraints remains a significant challenge. We often want an agent to perform well in a nominal task, such as environment exploration, while ensuring it can avoid unsafe states and return to a desired target by a specific time. In particular we are motivated by the setting of safe, efficient, hands-off training for reinforcement learning in the real world. By enabling a robot to safely and autonomously reset to a desired region (e.g., charging stations) without human intervention, we can enhance efficiency and facilitate training. Safety filters, such as those based on control barrier functions, decouple safety from nominal control objectives and rigorously guarantee safety. Despite their success, constructing these functions for general nonlinear systems with control constraints and system uncertainties remains an open problem. This paper introduces a safety filter obtained from the value function associated with the reach-avoid problem. The proposed safety filter minimally modifies the nominal controller while avoiding unsafe regions and guiding the system back to the desired target set. By preserving policy performance while allowing safe resetting, we enable efficient hands-off reinforcement learning and advance the feasibility of safe training for real world robots. We demonstrate our approach using a modified version of soft actor-critic to safely train a swing-up task on a modified cartpole stabilization problem.

arxiv情報

著者 Azra Begzadić,Nikhil Uday Shinde,Sander Tonkens,Dylan Hirsch,Kaleb Ugalde,Michael C. Yip,Jorge Cortés,Sylvia Herbert
発行日 2025-01-05 18:29:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY パーマリンク