Offline Reinforcement Learning using Human-Aligned Reward Labeling for Autonomous Emergency Braking in Occluded Pedestrian Crossing

要約

現実世界の駆動データセットの効果的なレバレッジは、自律運転システムのトレーニングを強化するために重要です。
オフラインの強化学習により、そのようなデータを使用して自動運転車のトレーニングが可能になりますが、利用可能なデータセットには意味のある報酬ラベルがありません。
報酬のラベル付けは、学習アルゴリズムのフィードバックを提供して、望ましい動作と望ましくない動作を区別し、それによってポリシーのパフォーマンスを改善するため、不可欠です。
このペーパーでは、人間に並べられた報酬ラベルを生成するための新しいパイプラインを紹介します。
提案されたアプローチは、人間の判断と安全性の考慮事項を反映するラベルを生成することにより、実際のデータセットに不在の報酬信号の課題に対処します。
パイプラインには、セマンティックセグメンテーションマップを分析することによりアクティブ化された適応型安全コンポーネントが組み込まれており、潜在的な衝突シナリオの効率性よりも自動運転車が優先順位を付けることができます。
提案されたパイプラインは、合成データとシミュレーションデータを使用して、さまざまなレベルの歩行者交通を備えた閉塞された歩行者交差シナリオに適用されます。
結果は、生成された報酬ラベルがシミュレーション報酬ラベルと密接に一致することを示しています。
行動の近位政策最適化を使用して運転ポリシーを訓練するために使用される場合、結果は他のベースラインと競合します。
これは、信頼性の高い人間に合った報酬信号を生成する際の私たちの方法の有効性を示しており、シミュレーション環境以外の強化学習を通じて自律的な駆動システムのトレーニングを促進し、人間の価値と整合しています。

要約(オリジナル)

Effective leveraging of real-world driving datasets is crucial for enhancing the training of autonomous driving systems. While Offline Reinforcement Learning enables the training of autonomous vehicles using such data, most available datasets lack meaningful reward labels. Reward labeling is essential as it provides feedback for the learning algorithm to distinguish between desirable and undesirable behaviors, thereby improving policy performance. This paper presents a novel pipeline for generating human-aligned reward labels. The proposed approach addresses the challenge of absent reward signals in real-world datasets by generating labels that reflect human judgment and safety considerations. The pipeline incorporates an adaptive safety component, activated by analyzing semantic segmentation maps, allowing the autonomous vehicle to prioritize safety over efficiency in potential collision scenarios. The proposed pipeline is applied to an occluded pedestrian crossing scenario with varying levels of pedestrian traffic, using synthetic and simulation data. The results indicate that the generated reward labels closely match the simulation reward labels. When used to train the driving policy using Behavior Proximal Policy Optimisation, the results are competitive with other baselines. This demonstrates the effectiveness of our method in producing reliable and human-aligned reward signals, facilitating the training of autonomous driving systems through Reinforcement Learning outside of simulation environments and in alignment with human values.

arxiv情報

著者 Vinal Asodia,Zhenhua Feng,Saber Fallah
発行日 2025-04-11 17:11:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク