Probabilistic Satisfaction of Temporal Logic Constraints in Reinforcement Learning via Adaptive Policy-Switching

要約

制約付き強化学習 (CRL) は、従来の強化学習 (RL) フレームワークに制約を導入する機械学習のサブセットです。
累積報酬の最大化のみを目的とする従来の RL とは異なり、CRL には、エージェントが学習プロセス中に遵守する必要がある特定のミッション要件や制限を表す追加の制約が組み込まれています。
この論文では、エージェントが学習プロセス全体を通じて望ましいレベルの時相論理制約満足度を確保しながら、報酬を最大化する最適なポリシーを学習することを目的とする、一種の CRL 問題に取り組みます。
私たちは、純粋学習 (報酬の最大化) と制約満足の間の切り替えに依存する新しいフレームワークを提案します。
このフレームワークは、以前の試行に基づいて制約を満たす確率を推定し、学習ポリシーと制約満足ポリシーの間で切り替える確率を適切に調整します。
提案されたアルゴリズムの正しさを理論的に検証し、包括的なシミュレーションを通じてそのパフォーマンスを実証します。

要約(オリジナル)

Constrained Reinforcement Learning (CRL) is a subset of machine learning that introduces constraints into the traditional reinforcement learning (RL) framework. Unlike conventional RL which aims solely to maximize cumulative rewards, CRL incorporates additional constraints that represent specific mission requirements or limitations that the agent must comply with during the learning process. In this paper, we address a type of CRL problem where an agent aims to learn the optimal policy to maximize reward while ensuring a desired level of temporal logic constraint satisfaction throughout the learning process. We propose a novel framework that relies on switching between pure learning (reward maximization) and constraint satisfaction. This framework estimates the probability of constraint satisfaction based on earlier trials and properly adjusts the probability of switching between learning and constraint satisfaction policies. We theoretically validate the correctness of the proposed algorithm and demonstrate its performance through comprehensive simulations.

arxiv情報

著者 Xiaoshan Lin,Sadık Bera Yüksel,Yasin Yazıcıoğlu,Derya Aksaray
発行日 2024-11-27 22:08:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, cs.SY, eess.SY パーマリンク