Reinforcement Learning of Action and Query Policies with LTL Instructions under Uncertain Event Detector

要約

線形時相論理 (LTL) 目標を備えた強化学習 (RL) を使用すると、ロボットが未知の環境で記号的なイベント計画を実行できるようになります。
既存の手法のほとんどは、イベント検出器が環境状態を象徴的なイベントに正確にマッピングできることを前提としています。
ただし、現実世界のイベント検出器には不確実性が避けられません。
イベント検出器におけるこのような不確実性により、LTL 命令に複数の分岐の可能性が生じ、アクションの決定が混乱します。
さらに、タスクの進行に必要な不確実なイベント検出器へのクエリにより、不確実性がさらに高まる可能性があります。
これらの問題に対処するために、我々は、不要なイベントによるタスクの失敗を回避しながら、不確実なイベントの検出によるLTL命令の多様性を考慮できるエージェントを学習するためのRLフレームワークであるLearning Action and Query over Belief LTL(LAQBL)を提案します。
検出クエリ。
私たちのフレームワークは、1) グラフ ニューラル ネットワークを使用した LTL 命令の複数の分岐の可能性である信念 LTL の埋め込み、2) アクション ポリシー、3) イベント ディテクタにクエリを実行するかどうかを決定するクエリ ポリシーを同時に学習します。
2D グリッド ワールドと画像入力ロボット検査環境でのシミュレーションでは、不確実なイベント検出器が存在する場合でも、私たちの方法が LTL 命令に従う動作を首尾よく学習することが示されています。

要約(オリジナル)

Reinforcement learning (RL) with linear temporal logic (LTL) objectives can allow robots to carry out symbolic event plans in unknown environments. Most existing methods assume that the event detector can accurately map environmental states to symbolic events; however, uncertainty is inevitable for real-world event detectors. Such uncertainty in an event detector generates multiple branching possibilities on LTL instructions, confusing action decisions. Moreover, the queries to the uncertain event detector, necessary for the task’s progress, may increase the uncertainty further. To cope with those issues, we propose an RL framework, Learning Action and Query over Belief LTL (LAQBL), to learn an agent that can consider the diversity of LTL instructions due to uncertain event detection while avoiding task failure due to the unnecessary event-detection query. Our framework simultaneously learns 1) an embedding of belief LTL, which is multiple branching possibilities on LTL instructions using a graph neural network, 2) an action policy, and 3) a query policy which decides whether or not to query for the event detector. Simulations in a 2D grid world and image-input robotic inspection environments show that our method successfully learns actions to follow LTL instructions even with uncertain event detectors.

arxiv情報

著者 Wataru Hatanaka,Ryota Yamashina,Takamitsu Matsubara
発行日 2023-09-06 05:12:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク