要約
線形時間論理(LTL)は、スカラー報酬関数で記述することが困難な政策最適化のためのタスクを簡略化して指定する方法を提供する。しかし、標準的なRLフレームワークは、LTLを最大限に満足する政策を見つけるには近視眼的すぎる場合がある。本論文では、2つの貢献を行う。第一に、我々は偶発的割引と呼ぶ技法を用いて、新しい価値関数に基づくプロキシを開発し、その下でLTL仕様を最も高い達成可能確率で満たすポリシーを見つけることができる。第二に、LTL仕様を満たす異なる方法に関する反実仮想推論によって、オンポリシーのロールアウトからオフポリシーデータを生成する新しい経験再生法を開発する。離散的および連続的な状態行動空間で行った実験により、我々の反実仮想的経験再生法の有効性を確認することができた。
要約(オリジナル)
Linear temporal logic (LTL) offers a simplified way of specifying tasks for policy optimization that may otherwise be difficult to describe with scalar reward functions. However, the standard RL framework can be too myopic to find maximally LTL satisfying policies. This paper makes two contributions. First, we develop a new value-function based proxy, using a technique we call eventual discounting, under which one can find policies that satisfy the LTL specification with highest achievable probability. Second, we develop a new experience replay method for generating off-policy data from on-policy rollouts via counterfactual reasoning on different ways of satisfying the LTL specification. Our experiments, conducted in both discrete and continuous state-action spaces, confirm the effectiveness of our counterfactual experience replay approach.
arxiv情報
著者 | Cameron Voloshin,Abhinav Verma,Yisong Yue |
発行日 | 2023-03-03 18:29:47+00:00 |
arxivサイト | arxiv_id(pdf) |