Mission-driven Exploration for Accelerated Deep Reinforcement Learning with Temporal Logic Task Specifications

要約

この論文では、線形時相論理 (LTL) を使用して指定されたミッションおよび安全要件を持つ移動ロボットの最適な制御ポリシーを設計するという問題について取り上げます。
未知の幾何学的構造を持つ環境で動作する、未知の確率力学を持つロボットを考慮します。
ロボットには障害物を検知できるセンサーが装備されています。
私たちの目標は、動きや環境の不確実性が存在する場合に、LTL でエンコードされたタスクを満たす確率を最大化する制御ポリシーを合成することです。
最近、同様の問題に対処するために、いくつかの深層強化学習 (DRL) アルゴリズムが提案されています。
関連研究における一般的な制限は、学習パフォーマンスの遅さです。
この問題に対処するために、同様の方法と比較して著しく速い速度で制御ポリシーを学習する機能を備えた新しい DRL アルゴリズムを提案します。
そのサンプル効率は、ミッションの達成に貢献する可能性のある方向への探査を優先する、ミッション主導型の探査戦略によるものです。
これらの方向を特定するには、LTL タスクのオートマトン表現と、未知のシステム ダイナミクスを (部分的に) モデル化する学習済みニューラル ネットワークに依存します。
未知の環境におけるロボットナビゲーションタスクにおけるアルゴリズムの効率を実証する比較実験を提供します。

要約(オリジナル)

This paper addresses the problem of designing optimal control policies for mobile robots with mission and safety requirements specified using Linear Temporal Logic (LTL). We consider robots with unknown stochastic dynamics operating in environments with unknown geometric structure. The robots are equipped with sensors allowing them to detect obstacles. Our goal is to synthesize a control policy that maximizes the probability of satisfying an LTL-encoded task in the presence of motion and environmental uncertainty. Several deep reinforcement learning (DRL) algorithms have been proposed recently to address similar problems. A common limitation in related works is that of slow learning performance. In order to address this issue, we propose a novel DRL algorithm, which has the capability to learn control policies at a notably faster rate compared to similar methods. Its sample efficiency is due to a mission-driven exploration strategy that prioritizes exploration towards directions that may contribute to mission accomplishment. Identifying these directions relies on an automaton representation of the LTL task as well as a learned neural network that (partially) models the unknown system dynamics. We provide comparative experiments demonstrating the efficiency of our algorithm on robot navigation tasks in unknown environments.

arxiv情報

著者 Jun Wang,Hosein Hasanbeig,Kaiyuan Tan,Zihe Sun,Yiannis Kantaros
発行日 2023-11-28 18:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク