Reinforcement Learning for Omega-Regular Specifications on Continuous-Time MDP

要約

連続時間マルコフ決定過程 (CTMDP) は、高密度の確率的環境下での逐次的な意思決定を表現するための正規モデルです。
環境の確率的進化がサンプリングによってのみ利用可能な場合、モデルフリー強化学習 (RL) は、最適な決定シーケンスを計算するための最適なアルゴリズムです。
一方、RL では、学習目標をスカラー報酬信号としてエンコードする必要があります。
このような変換を手動で行うのは面倒でエラーが発生しやすいため、高レベルの目的 (ロジックまたはオートマトンの形式で表される) を離散時間マルコフ決定プロセス (MDP) のスカラー報酬に変換するための多くの手法が提案されています。
残念ながら、CTMDP の自動変換はありません。
オメガ正規言語として表現された学習目標に対して CTMDP 環境を検討します。
オメガ正規言語は、正規言語を無限の範囲の仕様に一般化し、一般的な線形時間論理 LTL で与えられたプロパティを表現できます。
CTMDP の密な時間の性質に対応するために、オメガレギュラー目標の 2 つの異なるセマンティクスを検討します。1) 学習者の目標が良い状態でポジティブな時間を過ごす確率を最大化することである満足セマンティクス、および 2) 期待セマンティクス
ここで、学習者の目標は、オートマトンの「良い状態」で費やされる長期的な予想平均時間を最適化することです。
CTMDP の市販の RL アルゴリズムですぐに使用できるスカラー報酬信号への正しい変換を可能にするアプローチを提示します。
オメガ正規の目的を持ついくつかの一般的な CTMDP ベンチマークで評価することにより、提案されたアルゴリズムの有効性を示します。

要約(オリジナル)

Continuous-time Markov decision processes (CTMDPs) are canonical models to express sequential decision-making under dense-time and stochastic environments. When the stochastic evolution of the environment is only available via sampling, model-free reinforcement learning (RL) is the algorithm-of-choice to compute optimal decision sequence. RL, on the other hand, requires the learning objective to be encoded as scalar reward signals. Since doing such translations manually is both tedious and error-prone, a number of techniques have been proposed to translate high-level objectives (expressed in logic or automata formalism) to scalar rewards for discrete-time Markov decision processes (MDPs). Unfortunately, no automatic translation exists for CTMDPs. We consider CTMDP environments against the learning objectives expressed as omega-regular languages. Omega-regular languages generalize regular languages to infinite-horizon specifications and can express properties given in popular linear-time logic LTL. To accommodate the dense-time nature of CTMDPs, we consider two different semantics of omega-regular objectives: 1) satisfaction semantics where the goal of the learner is to maximize the probability of spending positive time in the good states, and 2) expectation semantics where the goal of the learner is to optimize the long-run expected average time spent in the “good states’ of the automaton. We present an approach enabling correct translation to scalar reward signals that can be readily used by off-the-shelf RL algorithms for CTMDPs. We demonstrate the effectiveness of the proposed algorithms by evaluating it on some popular CTMDP benchmarks with omega-regular objectives.

arxiv情報

著者 Amin Falah,Shibashis Guha,Ashutosh Trivedi
発行日 2023-03-16 17:45:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.OC パーマリンク