Regret-Free Reinforcement Learning for LTL Specifications

要約

高レベルの時間仕様に関して未知の動的システムを制御することを学ぶことは、制御理論の重要な問題です。
未知のダイナミクスを持つシステムの線形時間論的論理(LTL)仕様のコントローラーを学習するための最初の後悔のないオンラインアルゴリズムを提示します。
基礎となる(未知の)ダイナミクスは、有限状態およびアクションマルコフ決定プロセス(MDP)によってモデル化されていると仮定します。
私たちのコアの技術的結果は、MDPの無限ホロイゾンリーチと回避の問題の後悔のない学習アルゴリズムです。
一般的なLTL仕様の場合、グラフ構造がわかったら合成問題をリーチと回避の問題に削減できることを示します。
さらに、主な後悔のないアルゴリズムとは独立して動作する最小遷移確率の知識を想定して、グラフ構造を学習するためのアルゴリズムを提供します。
当社のLTLコントローラー合成アルゴリズムは、有限数の学習エピソードの後に​​最適な動作を達成することにどれだけ近いかについて、急激な境界を提供します。
対照的に、LTL合成の以前のアルゴリズムは漸近保証のみを提供し、学習段階での過渡性パフォーマンスに関する洞察を与えません。

要約(オリジナル)

Learning to control an unknown dynamical system with respect to high-level temporal specifications is an important problem in control theory. We present the first regret-free online algorithm for learning a controller for linear temporal logic (LTL) specifications for systems with unknown dynamics. We assume that the underlying (unknown) dynamics is modeled by a finite-state and action Markov decision process (MDP). Our core technical result is a regret-free learning algorithm for infinite-horizon reach-avoid problems on MDPs. For general LTL specifications, we show that the synthesis problem can be reduced to a reach-avoid problem once the graph structure is known. Additionally, we provide an algorithm for learning the graph structure, assuming knowledge of a minimum transition probability, which operates independently of the main regret-free algorithm. Our LTL controller synthesis algorithm provides sharp bounds on how close we are to achieving optimal behavior after a finite number of learning episodes. In contrast, previous algorithms for LTL synthesis only provide asymptotic guarantees, which give no insight into the transient performance during the learning phase.

arxiv情報

著者 Rupak Majumdar,Mahmoud Salamati,Sadegh Soudjani
発行日 2025-06-06 14:51:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク