A Unified Approach to Multi-task Legged Navigation: Temporal Logic Meets Reinforcement Learning

要約

この研究では、目標指向タスクと環境探索タスクを同時に達成するためのホッピングロボットナビゲーション計画の問題を検討します。
ロボットが線形時間論理 (LTL) 仕様を使用して定義された必須の目標指向タスクと、報酬関数を使用して表されるオプションの探索タスクを持つシナリオを考えます。
さらに、ロボットのダイナミクスには不確実性が存在し、動作の乱れが生じます。
まず、高レベルの計画と低レベルの制御のためのニューラル ネットワーク ベースの最適化を可能にする 3D ホッピング ロボット ダイナミクスの抽象化を提案します。
次に、システムとタスクのマルチタスク プロダクト IMDP (MT-PIMDP) モデルを紹介します。
我々は、タスク指向の目標達成行動と、摂動と報酬を学習するためのタスクに依存しない探索の両方を可能にする統合制御ポリシー合成アルゴリズムを提案します。
私たちは、LTL アクションまたは RL アクションのいずれかを優先することによって引き起こされるトレードオフの正式な証明を提供します。
2D ワールド ナビゲーション環境でのシミュレーション ケース スタディを使用して手法を実証します。

要約(オリジナル)

This study examines the problem of hopping robot navigation planning to achieve simultaneous goal-directed and environment exploration tasks. We consider a scenario in which the robot has mandatory goal-directed tasks defined using Linear Temporal Logic (LTL) specifications as well as optional exploration tasks represented using a reward function. Additionally, there exists uncertainty in the robot dynamics which results in motion perturbation. We first propose an abstraction of 3D hopping robot dynamics which enables high-level planning and a neural-network-based optimization for low-level control. We then introduce a Multi-task Product IMDP (MT-PIMDP) model of the system and tasks. We propose a unified control policy synthesis algorithm which enables both task-directed goal-reaching behaviors as well as task-agnostic exploration to learn perturbations and reward. We provide a formal proof of the trade-off induced by prioritizing either LTL or RL actions. We demonstrate our methods with simulation case studies in a 2D world navigation environment.

arxiv情報

著者 Jesse Jiang,Samuel Coogan,Ye Zhao
発行日 2024-07-09 15:06:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク