Deep Policy Optimization with Temporal Logic Constraints

要約

線形時相論理 (LTL) などの時相論理は、(深層) 強化学習 (RL) エージェントのタスクを指定する正確な手段を提供します。
私たちの作業では、タスクが LTL 目標によって指定されており、最適化する必要がある追加のスカラー報酬があるという設定を考慮します。
これまでの研究では、LTL タスクを満たすポリシーのみを学習するか、有限の状態空間に限定されていました。
私たちは 2 つの貢献をします。まず、この問題を単一の最適化目標として定式化することで、この設定に対して RL フレンドリーなアプローチを導入します。
私たちの定式化では、LTL 仕様を満たす可能性を最大化するポリシーのセットから、最適なポリシーが報酬最大となることを保証します。
2 番目に、LTL 仕様を満たすように RL エージェントを自動的にガイドする技術であるサイクル エクスペリエンス リプレイ (CyclER) を導入することで、LTL ガイドのディープ RL ポリシーでよく発生するスパース性の問題に対処します。
私たちの実験は、連続実験ドメインと離散実験ドメインの両方でパフォーマンスの高いディープ RL ポリシーを見つける際の CyclER の有効性を実証しています。

要約(オリジナル)

Temporal logics, such as linear temporal logic (LTL), offer a precise means of specifying tasks for (deep) reinforcement learning (RL) agents. In our work, we consider the setting where the task is specified by an LTL objective and there is an additional scalar reward that we need to optimize. Previous works focus either on learning a LTL task-satisfying policy alone or are restricted to finite state spaces. We make two contributions: First, we introduce an RL-friendly approach to this setting by formulating this problem as a single optimization objective. Our formulation guarantees that an optimal policy will be reward-maximal from the set of policies that maximize the likelihood of satisfying the LTL specification. Second, we address a sparsity issue that often arises for LTL-guided Deep RL policies by introducing Cycle Experience Replay (CyclER), a technique that automatically guides RL agents towards the satisfaction of an LTL specification. Our experiments demonstrate the efficacy of CyclER in finding performant deep RL policies in both continuous and discrete experimental domains.

arxiv情報

著者 Ameesh Shah,Cameron Voloshin,Chenxi Yang,Abhinav Verma,Swarat Chaudhuri,Sanjit A. Seshia
発行日 2024-04-17 17:24:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.FL, cs.LG パーマリンク