Towards Theoretical Understanding of Data-Driven Policy Refinement

要約

本論文では、特にセーフティクリティカルなアプリケーションのために設計された、強化学習におけるデータ駆動型ポリシー洗練のためのアプローチを紹介する。我々の手法は、データ駆動型最適化と強化学習の長所を活用し、反復的な洗練によってポリシーの安全性と最適性を向上させる。我々の主な貢献は、このデータ駆動型政策洗練の概念を数学的に定式化したことにある。このフレームワークは、データ駆動型検証の際に浮上した反例から学ぶことで、強化学習ポリシーを体系的に改善する。さらに、収束性、頑健性の境界、汎化誤差、モデルの不一致に対する耐性など、本アプローチの主要な理論的特性を解明する一連の定理を提示する。これらの結果は、本手法の有効性を検証するだけでなく、異なる環境やシナリオにおける本手法の挙動をより深く理解することに寄与する。

要約(オリジナル)

This paper presents an approach for data-driven policy refinement in reinforcement learning, specifically designed for safety-critical applications. Our methodology leverages the strengths of data-driven optimization and reinforcement learning to enhance policy safety and optimality through iterative refinement. Our principal contribution lies in the mathematical formulation of this data-driven policy refinement concept. This framework systematically improves reinforcement learning policies by learning from counterexamples surfaced during data-driven verification. Furthermore, we present a series of theorems elucidating key theoretical properties of our approach, including convergence, robustness bounds, generalization error, and resilience to model mismatch. These results not only validate the effectiveness of our methodology but also contribute to a deeper understanding of its behavior in different environments and scenarios.

arxiv情報

著者 Ali Baheri
発行日 2023-05-11 13:36:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.SY, eess.SY パーマリンク