Towards Theoretical Understanding of Data-Driven Policy Refinement

要約

このペーパーでは、特に安全性が重要なアプリケーション向けに設計された、強化学習におけるデータ駆動型のポリシー改良のためのアプローチを紹介します。
私たちの方法論は、データ駆動型の最適化と強化学習の強みを活用して、反復的な改善を通じてポリシーの安全性と最適性を強化します。
私たちの主な貢献は、このデータ駆動型のポリシー改良コンセプトの数学的定式化にあります。
このフレームワークは、データ駆動型検証中に特定された反例から学習することで、強化学習ポリシーを体系的に改善します。
さらに、収束、ロバストネス限界、一般化誤差、モデルの不一致に対する回復力など、私たちのアプローチの重要な理論的特性を説明する一連の定理を提示します。
これらの結果は、私たちの方法論の有効性を検証するだけでなく、さまざまな環境やシナリオにおけるその動作のより深い理解にも貢献します。

要約(オリジナル)

This paper presents an approach for data-driven policy refinement in reinforcement learning, specifically designed for safety-critical applications. Our methodology leverages the strengths of data-driven optimization and reinforcement learning to enhance policy safety and optimality through iterative refinement. Our principal contribution lies in the mathematical formulation of this data-driven policy refinement concept. This framework systematically improves reinforcement learning policies by learning from counterexamples identified during data-driven verification. Furthermore, we present a series of theorems elucidating key theoretical properties of our approach, including convergence, robustness bounds, generalization error, and resilience to model mismatch. These results not only validate the effectiveness of our methodology but also contribute to a deeper understanding of its behavior in different environments and scenarios.

arxiv情報

著者 Ali Baheri
発行日 2023-05-15 13:31:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SY, eess.SY パーマリンク