Certified Reinforcement Learning with Logic Guidance

要約

強化学習 (RL) は、さまざまな制御問題に適用され、広く採用されている機械学習アーキテクチャです。
ただし、セーフティ クリティカルな領域のアプリケーションでは、要件をタスクまたは目標として指定する体系的かつ正式なアプローチが必要です。
我々は、線形時間論理 (LTL) を使用して未知の連続状態/動作マルコフ決定プロセス (MDP) の目標を定式化できる、モデルフリー RL アルゴリズムを提案します。
指定された LTL プロパティは、限界決定性一般化 Buchi オートマトン (LDGBA) に変換され、その後、同期報酬関数をオンザフライで形成するために使用されます。
特定の仮定の下では、アルゴリズムは、トレースが最大の確率で LTL 仕様を満たす制御ポリシーを合成することが保証されます。

要約(オリジナル)

Reinforcement Learning (RL) is a widely employed machine learning architecture that has been applied to a variety of control problems. However, applications in safety-critical domains require a systematic and formal approach to specifying requirements as tasks or goals. We propose a model-free RL algorithm that enables the use of Linear Temporal Logic (LTL) to formulate a goal for unknown continuous-state/action Markov Decision Processes (MDPs). The given LTL property is translated into a Limit-Deterministic Generalised Buchi Automaton (LDGBA), which is then used to shape a synchronous reward function on-the-fly. Under certain assumptions, the algorithm is guaranteed to synthesise a control policy whose traces satisfy the LTL specification with maximal probability.

arxiv情報

著者 Hosein Hasanbeig,Daniel Kroening,Alessandro Abate
発行日 2023-06-06 15:52:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク