Average Reward Reinforcement Learning for Omega-Regular and Mean-Payoff Objectives

要約

補強学習(RL)の最近の進歩により、エージェントの動作を形成する報酬機能の設計に焦点を当てています。
手動で報酬機能を設計することは退屈でエラーが発生しやすいです。
原則的な代替案は、自動的に報酬に変換できる正式な言語で動作を指定することです。
オメガの正規言語は、正式な検証と統合における確立された役割を考えると、この目的のための自然な選択です。
ただし、オメガ正規仕様を使用した既存の方法は、通常、定期的なリセットを使用して、エピソード設定の割引報酬RLに依存しています。
このセットアップは、無限の動作トレースよりもプロパティを記述するオメガ正規仕様のセマンティクスと誤って調整されます。
そのような場合、平均報酬基準と継続的な設定 – エージェントが環境と単一の中断のない寿命を越えて相互作用する – はより適切です。
継続的なタスク、継続的なタスクの課題に対処するために、絶対的なlivense仕様の仕様に焦点を当てます。これは、有限の動作のプレフィックスでは違反できないオメガ正規言語のサブクラスであり、継続的な設定に適しています。
絶対的なlivension仕様を平均報酬目標に変換する最初のモデルフリーRLフレームワークを提示します。
私たちのアプローチにより、エピソードリセットなしでMDPを通信することを学習できます。
また、特定のオメガ正規仕様の満足度確率を最大化するポリシーの中で外部の平均報酬目標を最大化することを目的とした、辞書編集の多目的最適化の報酬構造を紹介します。
私たちの方法は、未知のMDPの通信の収束を保証し、環境の完全な知識を必要としないオンザフライ削減をサポートし、モデルのないRLを可能にします。
経験的な結果は、ベンチマーク全体で割引ベースの方法を上回ることを継続する際の平均的な報酬アプローチを示しています。

要約(オリジナル)

Recent advances in reinforcement learning (RL) have renewed focus on the design of reward functions that shape agent behavior. Manually designing reward functions is tedious and error-prone. A principled alternative is to specify behaviors in a formal language that can be automatically translated into rewards. Omega-regular languages are a natural choice for this purpose, given their established role in formal verification and synthesis. However, existing methods using omega-regular specifications typically rely on discounted reward RL in episodic settings, with periodic resets. This setup misaligns with the semantics of omega-regular specifications, which describe properties over infinite behavior traces. In such cases, the average reward criterion and the continuing setting — where the agent interacts with the environment over a single, uninterrupted lifetime — are more appropriate. To address the challenges of infinite-horizon, continuing tasks, we focus on absolute liveness specifications — a subclass of omega-regular languages that cannot be violated by any finite behavior prefix, making them well-suited to the continuing setting. We present the first model-free RL framework that translates absolute liveness specifications to average-reward objectives. Our approach enables learning in communicating MDPs without episodic resetting. We also introduce a reward structure for lexicographic multi-objective optimization, aiming to maximize an external average-reward objective among the policies that also maximize the satisfaction probability of a given omega-regular specification. Our method guarantees convergence in unknown communicating MDPs and supports on-the-fly reductions that do not require full knowledge of the environment, thus enabling model-free RL. Empirical results show our average-reward approach in continuing setting outperforms discount-based methods across benchmarks.

arxiv情報

著者 Milad Kazemi,Mateo Perez,Fabio Somenzi,Sadegh Soudjani,Ashutosh Trivedi,Alvaro Velasquez
発行日 2025-05-21 16:06:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク