Synthesis of Hierarchical Controllers Based on Deep Reinforcement Learning Policies

要約

マルコフ決定プロセス (MDP) としてモデル化された環境のコントローラー設計の問題に対する新しいアプローチを提案します。
具体的には、階層 MDP を、「ルーム」と呼ばれる MDP によって各頂点が設定されたグラフであると考えます。
まず深層強化学習 (DRL) を適用して、各部屋の低レベルのポリシーを取得し、未知の構造の大きな部屋まで拡張します。
次に、リアクティブ合成を適用して、各ルームで実行する低レベルのポリシーを選択する高レベルのプランナーを取得します。
プランナーを統合する際の中心的な課題は、部屋をモデリングする必要があることです。
私たちは、簡潔な「潜在的な」ポリシーをトレーニングするための DRL 手順を開発し、そのパフォーマンスに関する PAC 保証を行うことで、この課題に対処します。
以前のアプローチとは異なり、私たちのアプローチはモデル蒸留ステップを回避します。
私たちのアプローチは、DRL の希薄な報酬に対処し、低レベルのポリシーの再利用を可能にします。
移動する障害物中でのエージェントのナビゲーションを含むケーススタディで実現可能性を実証します。

要約(オリジナル)

We propose a novel approach to the problem of controller design for environments modeled as Markov decision processes (MDPs). Specifically, we consider a hierarchical MDP a graph with each vertex populated by an MDP called a ‘room’. We first apply deep reinforcement learning (DRL) to obtain low-level policies for each room, scaling to large rooms of unknown structure. We then apply reactive synthesis to obtain a high-level planner that chooses which low-level policy to execute in each room. The central challenge in synthesizing the planner is the need for modeling rooms. We address this challenge by developing a DRL procedure to train concise ‘latent’ policies together with PAC guarantees on their performance. Unlike previous approaches, ours circumvents a model distillation step. Our approach combats sparse rewards in DRL and enables reusability of low-level policies. We demonstrate feasibility in a case study involving agent navigation amid moving obstacles.

arxiv情報

著者 Florent Delgrange,Guy Avni,Anna Lukina,Christian Schilling,Ann Nowé,Guillermo A. Pérez
発行日 2024-02-21 13:10:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク