Signal Temporal Logic Neural Predictive Control

要約

安全性を確保し、一時的な仕様を満たすことは、長期にわたるロボット作業にとって重要な課題です。
信号時相論理 (STL) は、これらの要件を体系的かつ厳密に指定するために広く使用されています。
ただし、これらの STL 要件に基づいて制御ポリシーを見つける従来の方法は計算が複雑で、高次元システムや複雑な非線形ダイナミクスを備えたシステムには拡張できません。
強化学習 (RL) 手法は、手作りの報酬または STL からインスピレーションを得た報酬を介して STL 仕様を満たすポリシーを学習できますが、報酬の曖昧さと希薄性により予期しない動作が発生する可能性があります。
本稿では、STLで規定された要件を満たすニューラルネットワークコントローラを直接学習する手法を提案する。
私たちのコントローラーは、トレーニングで STL 堅牢性スコアを最大化するために軌道を展開することを学習します。
テストでは、モデル予測制御 (MPC) と同様に、学習されたコントローラーが計画期間内の軌道を予測し、導入時の STL 要件を確実に満たします。
バックアップ ポリシーは、コントローラーに障害が発生した場合の安全性を確保するように設計されています。
私たちのアプローチは、さまざまな初期条件や環境パラメーターに適応できます。
私たちは 6 つのタスクで実験を行っています。バックアップ ポリシーを使用した私たちの方法は、STL 満足度において従来の方法 (MPC、STL ソルバー)、モデルフリーおよびモデルベースの RL 方法よりも優れています。特に、複雑な STL 仕様を持つタスクでは 10 倍です。
従来の方法よりも -100 倍高速です。

要約(オリジナル)

Ensuring safety and meeting temporal specifications are critical challenges for long-term robotic tasks. Signal temporal logic (STL) has been widely used to systematically and rigorously specify these requirements. However, traditional methods of finding the control policy under those STL requirements are computationally complex and not scalable to high-dimensional or systems with complex nonlinear dynamics. Reinforcement learning (RL) methods can learn the policy to satisfy the STL specifications via hand-crafted or STL-inspired rewards, but might encounter unexpected behaviors due to ambiguity and sparsity in the reward. In this paper, we propose a method to directly learn a neural network controller to satisfy the requirements specified in STL. Our controller learns to roll out trajectories to maximize the STL robustness score in training. In testing, similar to Model Predictive Control (MPC), the learned controller predicts a trajectory within a planning horizon to ensure the satisfaction of the STL requirement in deployment. A backup policy is designed to ensure safety when our controller fails. Our approach can adapt to various initial conditions and environmental parameters. We conduct experiments on six tasks, where our method with the backup policy outperforms the classical methods (MPC, STL-solver), model-free and model-based RL methods in STL satisfaction rate, especially on tasks with complex STL specifications while being 10X-100X faster than the classical methods.

arxiv情報

著者 Yue Meng,Chuchu Fan
発行日 2023-09-10 20:31:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク