要約
この論文は、微分可能な信号の時相論理によって制約される階層的な強化学習アルゴリズムを提示します。
論理制約付き強化学習に関する以前の研究では、これらの制約を報酬関数でエンコードし、サンプルベースのポリシー勾配でポリシーの更新を制約することを検討しました。
ただし、このような手法は、正確なポリシー勾配を取得するために必要なサンプル数が非常に多いため、非効率的であることがよくあります。
このホワイトペーパーでは、サンプルベースのポリシー勾配を使用してポリシー検索を暗黙的に制約する代わりに、正式な制約を逆伝播することでポリシー検索を直接制約し、実質的に少ないトレーニング サンプルで階層型ポリシーをトレーニングできるようにします。
階層型ポリシーの使用は、タスク制約のある強化学習の重要な要素として認識されています。
ポリシーの更新を安定して制限できることを示します。これにより、さまざまなレベルのポリシーを同時に学習できるようになり、個別にトレーニングする場合と比較して優れたパフォーマンスが得られます。
シミュレートされたいくつかの高次元ロボット ダイナミクスと現実世界の差動駆動ロボット (TurtleBot3) に関する実験結果は、5 つの異なるタイプのタスク制約に対するアプローチの有効性を示しています。
デモ ビデオ、コード、およびモデルは、プロジェクトの Web サイト (https://sites.google.com/view/dscrl) にあります。
要約(オリジナル)
This paper presents a hierarchical reinforcement learning algorithm constrained by differentiable signal temporal logic. Previous work on logic-constrained reinforcement learning consider encoding these constraints with a reward function, constraining policy updates with a sample-based policy gradient. However, such techniques oftentimes tend to be inefficient because of the significant number of samples required to obtain accurate policy gradients. In this paper, instead of implicitly constraining policy search with sample-based policy gradients, we directly constrain policy search by backpropagating through formal constraints, enabling training hierarchical policies with substantially fewer training samples. The use of hierarchical policies is recognized as a crucial component of reinforcement learning with task constraints. We show that we can stably constrain policy updates, thus enabling different levels of the policy to be learned simultaneously, yielding superior performance compared with training them separately. Experiment results on several simulated high-dimensional robot dynamics and a real-world differential drive robot (TurtleBot3) demonstrate the effectiveness of our approach on five different types of task constraints. Demo videos, code, and models can be found at our project website: https://sites.google.com/view/dscrl
arxiv情報
| 著者 | Zikang Xiong,Joe Eappen,Daniel Lawson,Ahmed H. Qureshi,Suresh Jagannathan |
| 発行日 | 2023-03-02 15:24:24+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google