Sample-Efficient Reinforcement Learning with Temporal Logic Objectives: Leveraging the Task Specification to Guide Exploration

要約

この論文では、不確実なダイナミクスと線形時相論理 (LTL) 式として指定された高レベルの制御目標を持つシステムに対する最適な制御ポリシーを学習するという問題に取り組みます。
ワークスペース構造および制御決定の結果において不確実性が考慮され、未知のマルコフ決定プロセス (MDP) が生成されます。
LTL タスク用の既存の強化学習 (RL) アルゴリズムは通常、積 MDP 状態空間を均一に探索することに依存しており ($\epsilon$-greedy ポリシーなどを使用して)、サンプル効率が損なわれています。
この問題は、報酬がまばらになり、MDP サイズまたはタスクの複雑さが増加するにつれて、さらに顕著になります。
この論文では、競合アプローチよりも大幅に速く制御ポリシーを学習できる加速化された RL アルゴリズムを提案します。
そのサンプル効率は、タスクの満足度に貢献する可能性のある方向に探索を偏らせる、新しいタスク駆動型の探索戦略に依存しています。
提案された方法のサンプル効率を実証する理論的分析と広範な比較実験を提供します。
私たちの方法の利点は、タスクの複雑さまたは MDP サイズが増加するにつれてより明らかになります。

要約(オリジナル)

This paper addresses the problem of learning optimal control policies for systems with uncertain dynamics and high-level control objectives specified as Linear Temporal Logic (LTL) formulas. Uncertainty is considered in the workspace structure and the outcomes of control decisions giving rise to an unknown Markov Decision Process (MDP). Existing reinforcement learning (RL) algorithms for LTL tasks typically rely on exploring a product MDP state-space uniformly (using e.g., an $\epsilon$-greedy policy) compromising sample-efficiency. This issue becomes more pronounced as the rewards get sparser and the MDP size or the task complexity increase. In this paper, we propose an accelerated RL algorithm that can learn control policies significantly faster than competitive approaches. Its sample-efficiency relies on a novel task-driven exploration strategy that biases exploration towards directions that may contribute to task satisfaction. We provide theoretical analysis and extensive comparative experiments demonstrating the sample-efficiency of the proposed method. The benefit of our method becomes more evident as the task complexity or the MDP size increases.

arxiv情報

著者 Yiannis Kantaros,Jun Wang
発行日 2024-10-16 00:53:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク