Funnel-based Reward Shaping for Signal Temporal Logic Tasks in Reinforcement Learning

要約

Signal Temporal Logic (STL) は、動的システムの複雑な時間的および論理的動作を記述するための強力なフレームワークです。
多くの研究が、STL 仕様を強制するコントローラーを学習するために強化学習を採用することを試みてきました。
しかし、連続状態空間で堅牢な満足を確保し、扱いやすさを維持するという課題に効果的に取り組むことができませんでした。
この論文では、ファネル関数の概念を活用して、連続状態空間で STL 仕様をロバストに満たすための時間依存ポリシーを学習するための扱いやすい強化学習アルゴリズムを提案します。
さまざまな環境を使用して、いくつかの STL タスクに対するアプローチの有用性を示します。

要約(オリジナル)

Signal Temporal Logic (STL) is a powerful framework for describing the complex temporal and logical behaviour of the dynamical system. Numerous studies have attempted to employ reinforcement learning to learn a controller that enforces STL specifications; however, they have been unable to effectively tackle the challenges of ensuring robust satisfaction in continuous state space and maintaining tractability. In this paper, leveraging the concept of funnel functions, we propose a tractable reinforcement learning algorithm to learn a time-dependent policy for robust satisfaction of STL specification in continuous state space. We demonstrate the utility of our approach on several STL tasks using different environments.

arxiv情報

著者 Naman Saxena,Gorantla Sandeep,Pushpak Jagtap
発行日 2023-07-18 17:50:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SY, eess.SY パーマリンク