Safety-aware Causal Representation for Trustworthy Reinforcement Learning in Autonomous Driving

要約

自動運転の分野では、デモンストレーションからの学習 (LfD) パラダイムが、一連の意思決定の問題に対処する際に顕著な有効性を示しています。
ただし、さまざまな交通状況、特に安全性が重要なシナリオで一貫して安全性を達成することは、オフライン データセットにはないロングテールで予期せぬシナリオのため、重大な課題を引き起こします。
この論文では、構造化シ​​ナリオ情報を活用することで適応的なエンドツーエンドの運転ポリシーの学習を促進するために考案された先駆的な方法論である、安全性を意識した構造化シナリオ表現 (FUSION) を紹介します。
FUSION は、分解された報酬、コスト、状態、アクション空間の間の因果関係を利用し、動的なトラフィック環境下で構造化された逐次推論のためのフレームワークを構築します。
私たちは、自動運転車における分布シフトの 2 つの典型的な現実世界の設定で厳密な評価を実施し、現代の最先端の安全性を意識した LfD ベースラインと比較して、FUSION の安全コストとユーティリティの報酬のバランスが良いことを実証しました。
多様な運転シナリオにおける経験的証拠は、困難で目に見えない環境に直面しても、FUSION が自動運転エージェントの安全性と汎用性を大幅に強化することを証明しています。
さらに、我々のアブレーション研究では、安全なオフライン RL 問題への因果表現の統合において顕著な改善が見られることが明らかになりました。

要約(オリジナル)

In the domain of autonomous driving, the Learning from Demonstration (LfD) paradigm has exhibited notable efficacy in addressing sequential decision-making problems. However, consistently achieving safety in varying traffic contexts, especially in safety-critical scenarios, poses a significant challenge due to the long-tailed and unforeseen scenarios absent from offline datasets. In this paper, we introduce the saFety-aware strUctured Scenario representatION (FUSION), a pioneering methodology conceived to facilitate the learning of an adaptive end-to-end driving policy by leveraging structured scenario information. FUSION capitalizes on the causal relationships between decomposed reward, cost, state, and action space, constructing a framework for structured sequential reasoning under dynamic traffic environments. We conduct rigorous evaluations in two typical real-world settings of distribution shift in autonomous vehicles, demonstrating the good balance between safety cost and utility reward of FUSION compared to contemporary state-of-the-art safety-aware LfD baselines. Empirical evidence under diverse driving scenarios attests that FUSION significantly enhances the safety and generalizability of autonomous driving agents, even in the face of challenging and unseen environments. Furthermore, our ablation studies reveal noticeable improvements in the integration of causal representation into the safe offline RL problem.

arxiv情報

著者 Haohong Lin,Wenhao Ding,Zuxin Liu,Yaru Niu,Jiacheng Zhu,Yuming Niu,Ding Zhao
発行日 2023-11-21 21:40:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク