Provably Safe Reinforcement Learning with Step-wise Violation Constraints

要約

この論文では、段階的な違反制約を伴う新しい安全な強化学習問題を調査します。
私たちの問題は、より厳しい段階的な違反制約を考慮し、安全なアクションの存在を想定していないという点で既存の研究とは異なります。これにより、すべての決定ステップで安全性を確保する必要があり、常に安全性が確保されているとは限らない安全性が重要なアプリケーションにより適した定式化が行われます。
ロボット制御や自動運転などの安全行動。
$\widetilde{O}(\sqrt{ST})$ の段階的な違反と $\widetilde{O}(\sqrt{H^3SAT})$ の後悔を保証する新しいアルゴリズム SUCBVI を提案します。
下限は、$S$ と $T$ に関する違反と後悔の両方のパフォーマンスの最適性を検証するために提供されます。
さらに、段階的な違反制約を持つ新しい安全な報酬のない探索問題をさらに研究します。
この問題のために、$(\varepsilon,\delta)$-PAC アルゴリズム SRF-UCRL を設計します。これは、ほぼ最先端のサンプル複雑度 $\widetilde{O}((\frac{S^2AH^
2}{\varepsilon}+\frac{H^4SA}{\varepsilon^2})(\log(\frac{1}{\delta})+S))$、$\widetilde{O}(
\sqrt{ST})$ 探索中の違反。
実験結果は、安全性能におけるアルゴリズムの優位性を実証し、理論的結果を裏付けています。

要約(オリジナル)

In this paper, we investigate a novel safe reinforcement learning problem with step-wise violation constraints. Our problem differs from existing works in that we consider stricter step-wise violation constraints and do not assume the existence of safe actions, making our formulation more suitable for safety-critical applications which need to ensure safety in all decision steps and may not always possess safe actions, e.g., robot control and autonomous driving. We propose a novel algorithm SUCBVI, which guarantees $\widetilde{O}(\sqrt{ST})$ step-wise violation and $\widetilde{O}(\sqrt{H^3SAT})$ regret. Lower bounds are provided to validate the optimality in both violation and regret performance with respect to $S$ and $T$. Moreover, we further study a novel safe reward-free exploration problem with step-wise violation constraints. For this problem, we design an $(\varepsilon,\delta)$-PAC algorithm SRF-UCRL, which achieves nearly state-of-the-art sample complexity $\widetilde{O}((\frac{S^2AH^2}{\varepsilon}+\frac{H^4SA}{\varepsilon^2})(\log(\frac{1}{\delta})+S))$, and guarantees $\widetilde{O}(\sqrt{ST})$ violation during the exploration. The experimental results demonstrate the superiority of our algorithms in safety performance, and corroborate our theoretical results.

arxiv情報

著者 Nuoya Xiong,Yihan Du,Longbo Huang
発行日 2023-03-09 18:35:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク