Autonomous Drifting Based on Maximal Safety Probability Learning

要約

この論文は、最大安全確率の概念に基づいた自動運転のための新しい学習ベースのフレームワークを提案します。
効率的な学習には、望ましい状態と望ましくない状態を示す報酬が必要ですが、多くの安全な状態の中からより良い状態を区別することが難しいため、そのような報酬を手動で設計するのは困難です。
一方、安全確率を最大化するポリシーを学習するには、手間のかかる報酬形成は必要ありませんが、アルゴリズムは時間的にまばらなバイナリ報酬に基づいてポリシーを最適化する必要があるため、数値的には困難です。
ここでは、物理学に基づいた強化学習がこの形式の最大限に安全なポリシーを効率的に学習できることを示します。
既存のドリフト制御手法とは異なり、私たちのアプローチは特定の参照軌道や複雑な報酬形成を必要とせず、まばらなバイナリ報酬からのみ安全な動作を学習できます。
これは、報酬形成と同様の役割を果たす物理損失を使用することによって可能になります。
提案されたアプローチの有効性は、通常のコーナリング シナリオでの車線維持と高速レース シナリオでの安全なドリフトを通じて実証されます。

要約(オリジナル)

This paper proposes a novel learning-based framework for autonomous driving based on the concept of maximal safety probability. Efficient learning requires rewards that are informative of desirable/undesirable states, but such rewards are challenging to design manually due to the difficulty of differentiating better states among many safe states. On the other hand, learning policies that maximize safety probability does not require laborious reward shaping but is numerically challenging because the algorithms must optimize policies based on binary rewards sparse in time. Here, we show that physics-informed reinforcement learning can efficiently learn this form of maximally safe policy. Unlike existing drift control methods, our approach does not require a specific reference trajectory or complex reward shaping, and can learn safe behaviors only from sparse binary rewards. This is enabled by the use of the physics loss that plays an analogous role to reward shaping. The effectiveness of the proposed approach is demonstrated through lane keeping in a normal cornering scenario and safe drifting in a high-speed racing scenario.

arxiv情報

著者 Hikaru Hoshino,Jiaxing Li,Arnav Menon,John M. Dolan,Yorie Nakahira
発行日 2024-09-05 01:34:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY パーマリンク