Differentiable Constrained Imitation Learning for Robot Motion Planning and Control

要約

動作の計画と制御は、自動運転などのロボット工学アプリケーションの重要なコンポーネントです。
ここでは、システムダイナミクスや安全境界(障害物など)などの時空間的な厳しい制約がロボットの動作を制限します。
最適制御からの直接法は、制約付きの最適化問題を解決します。
ただし、多くのアプリケーションでは、部分的に矛盾する目標の重み付けが原因で、適切なコスト関数を見つけることは本質的に困難です。
一方、行動クローニング (BC) などの模倣学習 (IL) 手法は、オフライン デモンストレーションから意思決定を学習するための直観的なフレームワークを提供し、複雑なロボット アプリケーションの計画と制御の有望な手段を構成します。
以前の研究は主に、制約を記述する追加の補助損失項を使用するソフト制約アプローチに依存していました。
ただし、配布外 (OOD) シナリオでは、致命的な安全クリティカルな障害が発生する可能性があります。
この取り組みでは、IL の柔軟性と最適な制御におけるハード制約の処理が統合されています。
私たちのアプローチは、移動ロボットと自動運転アプリケーションに焦点を当てているのに対し、制約ロボットの動作計画と制御、および交通エージェントのシミュレーションのための一般的なフレームワークを構成しています。
ハード制約は、明示的な補完と勾配ベースの補正を介して、微分可能な方法で学習問題に統合されます。
移動ロボットのナビゲーションと自動運転の模擬実験は、提案された方法の性能の証拠を提供します。

要約(オリジナル)

Motion planning and control are crucial components of robotics applications like automated driving. Here, spatio-temporal hard constraints like system dynamics and safety boundaries (e.g., obstacles) restrict the robot’s motions. Direct methods from optimal control solve a constrained optimization problem. However, in many applications finding a proper cost function is inherently difficult because of the weighting of partially conflicting objectives. On the other hand, Imitation Learning (IL) methods such as Behavior Cloning (BC) provide an intuitive framework for learning decision-making from offline demonstrations and constitute a promising avenue for planning and control in complex robot applications. Prior work primarily relied on soft constraint approaches, which use additional auxiliary loss terms describing the constraints. However, catastrophic safety-critical failures might occur in out-of-distribution (OOD) scenarios. This work integrates the flexibility of IL with hard constraint handling in optimal control. Our approach constitutes a general framework for constraint robotic motion planning and control, as well as traffic agent simulation, whereas we focus on mobile robot and automated driving applications. Hard constraints are integrated into the learning problem in a differentiable manner, via explicit completion and gradient-based correction. Simulated experiments of mobile robot navigation and automated driving provide evidence for the performance of the proposed method.

arxiv情報

著者 Christopher Diehl,Janis Adamek,Martin Krüger,Frank Hoffmann,Torsten Bertram
発行日 2023-08-28 09:00:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク