Co-learning Planning and Control Policies Constrained by Differentiable Logic Specifications

要約

ロボット工学における計画と制御ポリシーの統合は基本的なタスクですが、複雑なロジック仕様や高次元のロボット ダイナミクスなどの要因によってさらに複雑になります。
この論文では、計画と制御ポリシーを共同学習することで、複雑なロジック仕様を持つ高次元のロボット ナビゲーション タスクを解決するための新しい強化学習アプローチを紹介します。
特に、このアプローチではトレーニングにおけるサンプルの複雑さが大幅に軽減され、既存の強化学習アルゴリズムと比較してはるかに少ないサンプルで高品質のポリシーをトレーニングできるようになります。
さらに、当社の方法論は、マップ画像からの複雑な仕様の抽出を合理化し、さまざまなマップ レイアウトにわたる長距離のロボット動作パスの効率的な生成を可能にします。
さらに、私たちのアプローチは、高次元の制御と、ポリシーの調整による次善のポリシーの回避の機能も示しています。
私たちのアプローチの有効性は、さまざまなタイプのタスク仕様の下でシミュレートされた高次元四足ロボットのダイナミクスと現実世界の差動駆動ロボット (TurtleBot3) を含む実験を通じて実証されます。

要約(オリジナル)

Synthesizing planning and control policies in robotics is a fundamental task, further complicated by factors such as complex logic specifications and high-dimensional robot dynamics. This paper presents a novel reinforcement learning approach to solving high-dimensional robot navigation tasks with complex logic specifications by co-learning planning and control policies. Notably, this approach significantly reduces the sample complexity in training, allowing us to train high-quality policies with much fewer samples compared to existing reinforcement learning algorithms. In addition, our methodology streamlines complex specification extraction from map images and enables the efficient generation of long-horizon robot motion paths across different map layouts. Moreover, our approach also demonstrates capabilities for high-dimensional control and avoiding suboptimal policies via policy alignment. The efficacy of our approach is demonstrated through experiments involving simulated high-dimensional quadruped robot dynamics and a real-world differential drive robot (TurtleBot3) under different types of task specifications.

arxiv情報

著者 Zikang Xiong,Daniel Lawson,Joe Eappen,Ahmed H. Qureshi,Suresh Jagannathan
発行日 2023-10-02 03:45:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY パーマリンク