要約
補強学習アルゴリズムは通常、最適なポリシーを見つけるために、状態空間を広範囲に探求する必要があります。
ただし、安全性が批判的なアプリケーションでは、そのような調査に関連するリスクは壊滅的な結果につながる可能性があります。
既存の安全な探査方法は、制約を課すことでこれを軽減しようとします。これは、しばしば過度に保守的な行動と非効率的な学習をもたらすことができます。
早期制約違反に対する重い罰則は、地元のオプティマにエージェントを閉じ込め、国家空間の危険でありながら高報酬地域の探求を阻止することができます。
これに対処するために、州で条件付けされた安全表現を明示的に学習する方法を紹介します。
これらの安全表現で国家の特徴を強化することにより、私たちのアプローチは、過度に注意を払うことなく、より安全な探索を自然に奨励し、安全性が批判的なシナリオでより効率的で安全な政策学習をもたらします。
多様な環境にわたる経験的評価は、私たちの方法がタスクのパフォーマンスを大幅に改善しながら、トレーニング中の制約違反を減らし、調査と安全性とのバランスをとる際のその有効性を強調することを示しています。
要約(オリジナル)
Reinforcement learning algorithms typically necessitate extensive exploration of the state space to find optimal policies. However, in safety-critical applications, the risks associated with such exploration can lead to catastrophic consequences. Existing safe exploration methods attempt to mitigate this by imposing constraints, which often result in overly conservative behaviours and inefficient learning. Heavy penalties for early constraint violations can trap agents in local optima, deterring exploration of risky yet high-reward regions of the state space. To address this, we introduce a method that explicitly learns state-conditioned safety representations. By augmenting the state features with these safety representations, our approach naturally encourages safer exploration without being excessively cautious, resulting in more efficient and safer policy learning in safety-critical scenarios. Empirical evaluations across diverse environments show that our method significantly improves task performance while reducing constraint violations during training, underscoring its effectiveness in balancing exploration with safety.
arxiv情報
著者 | Kaustubh Mani,Vincent Mai,Charlie Gauthier,Annie Chen,Samer Nashed,Liam Paull |
発行日 | 2025-02-27 18:10:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google