Joint Learning of Policy with Unknown Temporal Constraints for Safe Reinforcement Learning

要約

タイトル:安全な強化学習のための未知の時間制約を持つ方策の共同学習

要約:
– 強化学習アルゴリズムの安全制約は、現実世界の多くの応用において未知または明示的に定義されていないことがある。
– この環境において安全な制約と最適な強化学習方策を同時に学習するフレームワークを提案する。
– このアプローチは、論理制約付きの強化学習アルゴリズムと進化アルゴリズムを統合して、シグナル・テンポラル・ロジック(STL)仕様を合成する。
– 提案するフレームワークは、共同学習プロセスの収束を確立し、発見された方策と真の最適方策の誤差バウンドを提供する定理に基づいている。
– 提案するフレームワークを、グリッドワールド環境で実証し、実際に効果的であることを示しながら、受け入れ可能な安全制約と強化学習方策を同時に特定することができた。

要約(オリジナル)

In many real-world applications, safety constraints for reinforcement learning (RL) algorithms are either unknown or not explicitly defined. We propose a framework that concurrently learns safety constraints and optimal RL policies in such environments, supported by theoretical guarantees. Our approach merges a logically-constrained RL algorithm with an evolutionary algorithm to synthesize signal temporal logic (STL) specifications. The framework is underpinned by theorems that establish the convergence of our joint learning process and provide error bounds between the discovered policy and the true optimal policy. We showcased our framework in grid-world environments, successfully identifying both acceptable safety constraints and RL policies while demonstrating the effectiveness of our theorems in practice.

arxiv情報

著者 Lunet Yifru,Ali Baheri
発行日 2023-04-30 21:15:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, cs.SY, eess.SY パーマリンク