Funnel-based Reward Shaping for Signal Temporal Logic Tasks in Reinforcement Learning


Signal Temporal Logic (STL) は、動的システムの複雑な時間的および論理的動作を記述するための強力なフレームワークです。
多くの研究が、STL 仕様を強制するコントローラーを学習するために強化学習を採用することを試みてきました。
この論文では、ファネル関数の概念を活用して、連続状態空間で STL 仕様をロバストに満たすための時間依存ポリシーを学習するための扱いやすい強化学習アルゴリズムを提案します。
さまざまな環境を使用して、いくつかの STL タスクに対するアプローチの有用性を示します。


Signal Temporal Logic (STL) is a powerful framework for describing the complex temporal and logical behaviour of the dynamical system. Numerous studies have attempted to employ reinforcement learning to learn a controller that enforces STL specifications; however, they have been unable to effectively tackle the challenges of ensuring robust satisfaction in continuous state space and maintaining tractability. In this paper, leveraging the concept of funnel functions, we propose a tractable reinforcement learning algorithm to learn a time-dependent policy for robust satisfaction of STL specification in continuous state space. We demonstrate the utility of our approach on several STL tasks using different environments.


著者 Naman Saxena,Gorantla Sandeep,Pushpak Jagtap
発行日 2023-07-18 17:50:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.LG, cs.SY, eess.SY パーマリンク