Tilted Quantile Gradient Updates for Quantile-Constrained Reinforcement Learning

要約

安全強化学習 (RL) は、安全性を保証しながら報酬を最大化するポリシーを学習するための、人気があり汎用性の高いパラダイムです。
これまでの研究では、実装の容易さから安全制約を期待形式で表現する傾向がありましたが、これは安全制約を高確率で維持するには効果的ではないことが判明しました。
この目的を達成するために、期待型近似を行わずにより高いレベルの安全性を可能にする分位点制約付き RL に移行します。
サンプリングを通じて分位点勾配を直接推定し、収束の理論的証明を提供します。
次に、分位点勾配の傾斜更新戦略が実装され、リターン パフォーマンスの直接的な利点により、非対称な分布密度が補償されます。
実験では、提案されたモデルが安全要件 (分位数制約) を完全に満たしながら、最先端のベンチマークを上回り、より高いリターンを実現することが実証されました。

要約(オリジナル)

Safe reinforcement learning (RL) is a popular and versatile paradigm to learn reward-maximizing policies with safety guarantees. Previous works tend to express the safety constraints in an expectation form due to the ease of implementation, but this turns out to be ineffective in maintaining safety constraints with high probability. To this end, we move to the quantile-constrained RL that enables a higher level of safety without any expectation-form approximations. We directly estimate the quantile gradients through sampling and provide the theoretical proofs of convergence. Then a tilted update strategy for quantile gradients is implemented to compensate the asymmetric distributional density, with a direct benefit of return performance. Experiments demonstrate that the proposed model fully meets safety requirements (quantile constraints) while outperforming the state-of-the-art benchmarks with higher return.

arxiv情報

著者 Chenglin Li,Guangchun Ruan,Hua Geng
発行日 2024-12-17 18:58:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク