要約
報酬関数を手動で指定するのは難しいため、線形時相論理 (LTL) を使用して強化学習 (RL) の目標を表現することに関心が集まっています。
ただし、LTL には、遷移確率の小さな摂動に敏感であるという欠点があり、追加の仮定なしではおそらくほぼ正しい (PAC) 学習が妨げられます。
時間割引は、ロジックの高い表現力を維持しながら、この敏感さを取り除く方法を提供します。
我々は、未知の遷移確率を伴うマルコフ決定プロセスにおける政策合成のための割引LTLの使用を研究し、すべての割引係数が同一である場合に、報酬マシンを介して割引LTLを割引合計報酬に減らす方法を示します。
要約(オリジナル)
The difficulty of manually specifying reward functions has led to an interest in using linear temporal logic (LTL) to express objectives for reinforcement learning (RL). However, LTL has the downside that it is sensitive to small perturbations in the transition probabilities, which prevents probably approximately correct (PAC) learning without additional assumptions. Time discounting provides a way of removing this sensitivity, while retaining the high expressivity of the logic. We study the use of discounted LTL for policy synthesis in Markov decision processes with unknown transition probabilities, and show how to reduce discounted LTL to discounted-sum reward via a reward machine when all discount factors are identical.
arxiv情報
著者 | Rajeev Alur,Osbert Bastani,Kishor Jothimurugan,Mateo Perez,Fabio Somenzi,Ashutosh Trivedi |
発行日 | 2023-05-26 17:32:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google