Sample Efficient Model-free Reinforcement Learning from LTL Specifications with Optimality Guarantees

要約

タイトル: 線形時間論理に基づく最適性保証つきのLTL仕様からのサンプル効率の良いモデルフリー強化学習

要約:

– LTL(線形時間論理)は、システムポリシーの高レベルな目的を指定するために広く使用されており、自律システムはこのような仕様に対する最適ポリシーの学習が非常に望ましいです。
– LTL仕様から最適ポリシーを学習することは容易ではありませんが、本研究では、未知の確率的システムに対して、効率的に最適ポリシーを学習できるモデルフリー強化学習(RL)アプローチを提案しています。
– 我々は、既存のモデルフリーRLアルゴリズムと組み合わせて効率的に与えられたLTL仕様を満たす確率を最大化する最適ポリシーを学習するための、新しいより一般的なプロダクトMDP、報酬構造、割引メカニズムを提案しています。
– RLのキーとなるパラメータを選択するためのより良い理論的結果も提供しています。
– 学習したポリシーを直接評価するために、PRISMという確率的モデルチェッカーを採用して、ポリシーがこのような仕様を満たす確率を計算しています。
– 様々なLTLタスクに対する、複数のタブラーMDP環境での実験により、サンプル効率と最適ポリシー収束の改善が示されています。

要約(オリジナル)

Linear Temporal Logic (LTL) is widely used to specify high-level objectives for system policies, and it is highly desirable for autonomous systems to learn the optimal policy with respect to such specifications. However, learning the optimal policy from LTL specifications is not trivial. We present a model-free Reinforcement Learning (RL) approach that efficiently learns an optimal policy for an unknown stochastic system, modelled using Markov Decision Processes (MDPs). We propose a novel and more general product MDP, reward structure and discounting mechanism that, when applied in conjunction with off-the-shelf model-free RL algorithms, efficiently learn the optimal policy that maximizes the probability of satisfying a given LTL specification with optimality guarantees. We also provide improved theoretical results on choosing the key parameters in RL to ensure optimality. To directly evaluate the learned policy, we adopt probabilistic model checker PRISM to compute the probability of the policy satisfying such specifications. Several experiments on various tabular MDP environments across different LTL tasks demonstrate the improved sample efficiency and optimal policy convergence.

arxiv情報

著者 Daqian Shao,Marta Kwiatkowska
発行日 2023-05-03 12:47:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.FL, cs.LG パーマリンク