Back to Base: Towards Hands-Off Learning via Safe Resets with Reach-Avoid Safety Filters

要約

安全制約を保証しながらタスクを達成するコントローラを設計することは、依然として重要な課題である。我々はしばしば、エージェントが安全でない状態を回避し、特定の時間までに目的の目標に戻ることを保証しながら、環境探索のような名目的なタスクで優れた性能を発揮することを望んでいる。特に我々は、実世界における強化学習のための、安全で効率的なハンズオフトレーニングの設定に動機づけられている。ロボットが人間の介入なしに安全かつ自律的に目的の領域(例えば充電ステーション)にリセットできるようにすることで、効率を高め、訓練を容易にすることができる。制御バリア関数に基づくような安全フィルタは、安全性を公称制御目標から切り離し、安全性を厳密に保証する。その成功にもかかわらず、制御制約やシステムの不確実性を伴う一般的な非線形システムに対してこれらの関数を構築することは、依然として未解決の問題である。本稿では、リーチアボイド問題に関連する値関数から得られる安全フィルタを紹介する。提案する安全フィルタは、安全でない領域を回避し、システムを望ましい目標集合に導く一方で、公称制御器を最小に修正する。安全なリセットを可能にしながらポリシーの性能を維持することで、効率的なハンズオフ強化学習を可能にし、実世界のロボットに対する安全なトレーニングの実現可能性を前進させる。我々は、ソフトアクタークリティックの修正版を用いて、カートポール安定化問題のスイングアップタスクを安全に訓練するアプローチを実証する。

要約(オリジナル)

Designing controllers that accomplish tasks while guaranteeing safety constraints remains a significant challenge. We often want an agent to perform well in a nominal task, such as environment exploration, while ensuring it can avoid unsafe states and return to a desired target by a specific time. In particular we are motivated by the setting of safe, efficient, hands-off training for reinforcement learning in the real world. By enabling a robot to safely and autonomously reset to a desired region (e.g., charging stations) without human intervention, we can enhance efficiency and facilitate training. Safety filters, such as those based on control barrier functions, decouple safety from nominal control objectives and rigorously guarantee safety. Despite their success, constructing these functions for general nonlinear systems with control constraints and system uncertainties remains an open problem. This paper introduces a safety filter obtained from the value function associated with the reach-avoid problem. The proposed safety filter minimally modifies the nominal controller while avoiding unsafe regions and guiding the system back to the desired target set. By preserving policy performance while allowing safe resetting, we enable efficient hands-off reinforcement learning and advance the feasibility of safe training for real world robots. We demonstrate our approach using a modified version of soft actor-critic to safely train a swing-up task on a modified cartpole stabilization problem.

arxiv情報

著者 Azra Begzadić,Nikhil Uday Shinde,Sander Tonkens,Dylan Hirsch,Kaleb Ugalde,Michael C. Yip,Jorge Cortés,Sylvia Herbert
発行日 2025-06-03 03:49:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO, cs.SY, eess.SY パーマリンク