要約
オンライン強化学習の多くの実際的なアプリケーションは、未知の環境について学びながら、安全上の制約の満足度を必要とします。
この作業では、未知のダイナミクスを備えた線形二次調節因子学習の標準的な問題を研究することにより、安全性の制約を伴う強化学習の理論的基礎を確立しますが、高い確率で軌道全体の安全な領域内に位置にとどまる必要があるという追加の制約があります。
私たちの主な貢献は、線形コントローラーよりも制約された問題に適した非線形コントローラーのより強力なベースラインを研究するための一般的なフレームワークです。
制約された問題で非線形コントローラーを分析するのが難しいため、1次元の状態および作用スペースに焦点を当てますが、高レベルのテイクアウトがより高い次元に一般化できると予想する方法についても説明します。
私たちのフレームワークを使用して、\ emphing {Any}非線形ベースラインの満足のいく自然な仮定の場合、$ \ Tilde {o} _t(\ sqrt {t})$ – 騒音分布が十分に大きなサポートを持っている場合、$ \ tilde {o} _t(t^{2/3})$の後悔が可能な場合、後悔が可能であることを示します。
サブガウスノイズ分布。
これらの結果を証明する際に、十分なノイズの存在下で安全を強制することが「自由な探査」を提供することを示す非線形制御に縛られた新しい不確実性推定を導入し、安全制御制御の不確実性の追加コストを補うことができます。
要約(オリジナル)
Many practical applications of online reinforcement learning require the satisfaction of safety constraints while learning about the unknown environment. In this work, we establish theoretical foundations for reinforcement learning with safety constraints by studying the canonical problem of Linear Quadratic Regulator learning with unknown dynamics, but with the additional constraint that the position must stay within a safe region for the entire trajectory with high probability. Our primary contribution is a general framework for studying stronger baselines of nonlinear controllers that are better suited for constrained problems than linear controllers. Due to the difficulty of analyzing non-linear controllers in a constrained problem, we focus on 1-dimensional state- and action- spaces, however we also discuss how we expect the high-level takeaways can generalize to higher dimensions. Using our framework, we show that for \emph{any} non-linear baseline satisfying natural assumptions, $\tilde{O}_T(\sqrt{T})$-regret is possible when the noise distribution has sufficiently large support, and $\tilde{O}_T(T^{2/3})$-regret is possible for \emph{any} subgaussian noise distribution. In proving these results, we introduce a new uncertainty estimation bound for nonlinear controls which shows that enforcing safety in the presence of sufficient noise can provide “free exploration” that compensates for the added cost of uncertainty in safety-constrained control.
arxiv情報
著者 | Benjamin Schiffer,Lucas Janson |
発行日 | 2025-04-29 16:24:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google