Autonomous Wheel Loader Navigation Using Goal-Conditioned Actor-Critic MPC

要約

本稿では、任意のゴールポーズへの時間効率の高いナビゲーションを可能にする、自律型ホイールローダの新しい制御方法を提案します。
高レベルの軌道プランナーとモデル予測制御 (MPC) を組み合わせた以前の研究とは異なり、アクター批判的強化学習 (RL) から導出されたコスト関数を統合することで、MPC の計画機能を直接強化します。
具体的には、シミュレーションでポーズ到達タスクを解決するように RL エージェントをトレーニングし、トレーニングされたニューラル ネットワークの批評家を MPC のステージとターミナル コストの両方として組み込みます。
我々は、包括的なシミュレーションを通じて、結果として得られる MPC が RL エージェントの時間効率の高い動作を継承し、軌道最適化を使用して見つかった軌道と比較して有利な軌道を生成することを示します。
また、実際のホイール ローダーにもメソッドを展開し、さまざまなゴール ポーズに正常に移動します。
対照的に、RL アクターはマシンに損傷を与える危険があり、現実世界での使用には適していませんでした。

要約(オリジナル)

This paper proposes a novel control method for an autonomous wheel loader, enabling time-efficient navigation to an arbitrary goal pose. Unlike prior works that combine high-level trajectory planners with Model Predictive Control (MPC), we directly enhance the planning capabilities of MPC by integrating a cost function derived from Actor-Critic Reinforcement Learning (RL). Specifically, we train an RL agent to solve the pose reaching task in simulation, then incorporate the trained neural network critic as both the stage and terminal cost of an MPC. We show through comprehensive simulations that the resulting MPC inherits the time-efficient behavior of the RL agent, generating trajectories that compare favorably against those found using trajectory optimization. We also deploy our method on a real wheel loader, where we successfully navigate to various goal poses. In contrast, the RL actor risked damaging the machine and was unsuitable for real-world use.

arxiv情報

著者 Aleksi Mäki-Penttilä,Naeim Ebrahimi Toulkani,Reza Ghabcheloo
発行日 2024-09-24 04:06:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY パーマリンク