要約
強化学習 (RL) は、さまざまな制御問題に適用され、広く採用されている機械学習アーキテクチャです。
ただし、セーフティ クリティカルな領域のアプリケーションでは、要件をタスクまたは目標として指定する体系的かつ正式なアプローチが必要です。
我々は、線形時間論理 (LTL) を使用して未知の連続状態/動作マルコフ決定プロセス (MDP) の目標を定式化できる、モデルフリー RL アルゴリズムを提案します。
指定された LTL プロパティは、限界決定性一般化 Buchi オートマトン (LDGBA) に変換され、その後、同期報酬関数をオンザフライで形成するために使用されます。
特定の仮定の下では、アルゴリズムは、トレースが最大の確率で LTL 仕様を満たす制御ポリシーを合成することが保証されます。
要約(オリジナル)
Reinforcement Learning (RL) is a widely employed machine learning architecture that has been applied to a variety of control problems. However, applications in safety-critical domains require a systematic and formal approach to specifying requirements as tasks or goals. We propose a model-free RL algorithm that enables the use of Linear Temporal Logic (LTL) to formulate a goal for unknown continuous-state/action Markov Decision Processes (MDPs). The given LTL property is translated into a Limit-Deterministic Generalised Buchi Automaton (LDGBA), which is then used to shape a synchronous reward function on-the-fly. Under certain assumptions, the algorithm is guaranteed to synthesise a control policy whose traces satisfy the LTL specification with maximal probability.
arxiv情報
著者 | Hosein Hasanbeig,Daniel Kroening,Alessandro Abate |
発行日 | 2023-06-06 15:52:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google