Reinforcement Learning Compensated Model Predictive Control for Off-road Driving on Unknown Deformable Terrain

要約

この研究では、変形可能な地形での高速オフロード自動運転向けに設計された Actor-Critic 強化学習補償モデル予測コントローラー (AC2MPC) を紹介します。
未知のタイヤと地形の相互作用をモデル化し、リアルタイム制御の実現可能性とパフォーマンスを確保するという困難に対処するこのフレームワークは、深層強化学習とモデル予測コントローラーを統合して、モデル化されていない非線形ダイナミクスを管理します。
高忠実度シミュレーター Project Chrono を使用して、一定および変化する速度プロファイルにわたってコントローラー フレームワークを評価します。
私たちの調査結果は、砂質の変形可能なトラック、砂と岩の多いトラック、および粘着性の粘土状の変形可能な土壌トラックを表す 3 つの未知の地形において、私たちのコントローラーがスタンドアロンのモデルベースおよび学習ベースのコントローラーよりも統計的に優れていることを示しています。
多様でこれまで見られなかった地形特性にもかかわらず、このフレームワークは、誤差を最小限に抑えて縦方向の基準速度を追跡するのに十分な一般化を実現しました。
さらに、このフレームワークは、純粋な学習ベースのコントローラーと比較して、必要なトレーニング データが大幅に少なく、より少ないステップで収束しながら、より優れたパフォーマンスを実現します。
トレーニングが不十分な場合でも、このコントローラーはスタンドアロン コントローラーよりも優れたパフォーマンスを示し、より安全で効率的な現実世界への展開の可能性を強調しました。

要約(オリジナル)

This study presents an Actor-Critic reinforcement learning Compensated Model Predictive Controller (AC2MPC) designed for high-speed, off-road autonomous driving on deformable terrains. Addressing the difficulty of modeling unknown tire-terrain interaction and ensuring real-time control feasibility and performance, this framework integrates deep reinforcement learning with a model predictive controller to manage unmodeled nonlinear dynamics. We evaluate the controller framework over constant and varying velocity profiles using high-fidelity simulator Project Chrono. Our findings demonstrate that our controller statistically outperforms standalone model-based and learning-based controllers over three unknown terrains that represent sandy deformable track, sandy and rocky track and cohesive clay-like deformable soil track. Despite varied and previously unseen terrain characteristics, this framework generalized well enough to track longitudinal reference speeds with the least error. Furthermore, this framework required significantly less training data compared to purely learning based controller, converging in fewer steps while delivering better performance. Even when under-trained, this controller outperformed the standalone controllers, highlighting its potential for safer and more efficient real-world deployment.

arxiv情報

著者 Prakhar Gupta,Jonathon M. Smereka,Yunyi Jia
発行日 2024-08-17 16:53:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY パーマリンク