Pay Attention to How You Drive: Safe and Adaptive Model-Based Reinforcement Learning for Off-Road Driving

要約

ロボットによる危険な行動は壊滅的な損害につながる可能性があるため、オフロードでの自動運転は困難です。
したがって、シミュレーションでコントローラーを開発することは、より安全で経済的な代替手段を提供するため、望ましいことがよくあります。
ただし、構造化されていない環境では複雑なロボットのダイナミクスと地形の相互作用のため、ロボットのダイナミクスを正確にモデリングすることは困難です。
ドメインのランダム化は、シミュレーション ダイナミクス パラメーターをランダム化することでこの問題に対処しますが、このアプローチでは堅牢性のためにパフォーマンスが犠牲になり、ターゲットのダイナミクスに対して次善のポリシーが生成されます。
堅牢性と適応性のバランスをとることを目的とした、新しいモデルベースの強化学習アプローチを紹介します。
私たちのアプローチは、さまざまなシミュレートされたダイナミクスの下でシステム識別トランスフォーマー (SIT) と適応ダイナミクス モデル (ADM) をトレーニングします。
SIT は、アテンション メカニズムを使用して、ターゲット システムからの状態遷移の観察をコンテキスト ベクトルに抽出し、ターゲット ダイナミクスの抽象化を提供します。
これを条件として、ADM はシステムのダイナミクスを確率的にモデル化します。
オンラインでは、リスク認識モデル予測パス統合コントローラー (MPPI) を使用して、ダイナミクスの現在の理解に基づいてロボットを安全に制御します。
我々は、このアプローチが初期化時により安全な動作を可能にし、より多くの観察によってターゲットシステムのダイナミクスの理解が向上するにつれて保守的ではなくなる(つまり、より高速になる)ことをシミュレーションと複数の実世界の環境で実証しました。
特に、私たちのアプローチは、さまざまな環境にわたって安全性を維持しながら、非適応ベースラインと比較してラップタイムを約 41% 向上させます。

要約(オリジナル)

Autonomous off-road driving is challenging as risky actions taken by the robot may lead to catastrophic damage. As such, developing controllers in simulation is often desirable as it provides a safer and more economical alternative. However, accurately modeling robot dynamics is difficult due to the complex robot dynamics and terrain interactions in unstructured environments. Domain randomization addresses this problem by randomizing simulation dynamics parameters, however this approach sacrifices performance for robustness leading to policies that are sub-optimal for any target dynamics. We introduce a novel model-based reinforcement learning approach that aims to balance robustness with adaptability. Our approach trains a System Identification Transformer (SIT) and an Adaptive Dynamics Model (ADM) under a variety of simulated dynamics. The SIT uses attention mechanisms to distill state-transition observations from the target system into a context vector, which provides an abstraction for its target dynamics. Conditioned on this, the ADM probabilistically models the system’s dynamics. Online, we use a Risk-Aware Model Predictive Path Integral controller (MPPI) to safely control the robot under its current understanding of the dynamics. We demonstrate in simulation as well as in multiple real-world environments that this approach enables safer behaviors upon initialization and becomes less conservative (i.e. faster) as its understanding of the target system dynamics improves with more observations. In particular, our approach results in an approximately 41% improvement in lap-time over the non-adaptive baseline while remaining safe across different environments.

arxiv情報

著者 Sean J. Wang,Honghao Zhu,Aaron M. Johnson
発行日 2023-10-12 19:20:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク