Confidence-Guided Human-AI Collaboration: Reinforcement Learning with Distributional Proxy Value Propagation for Autonomous Driving

要約

自律運転は、モビリティ、交通安全、交通効率の重要な進歩を約束しますが、補強学習と模倣学習は、安全な探求と流通シフトの課題に直面しています。
人間とのコラボレーションはこれらの問題を軽減しますが、多くの場合、大規模な人間の介入に大きく依存しており、コストを増加させ、効率を削減します。
このペーパーでは、これらの制限を克服するための自信に基づいたヒューマンアイコラボレーション(C-HAC)戦略を開発します。
まず、C-HACは、分布ソフトアクタークリティック(DSAC)フレームワーク内で分布プロキシ値伝播法を採用しています。
人間の意図を表すためにリターン分布を活用することにより、C-HACは、人間の相互作用を最小限に抑えて、人間誘導政策の迅速かつ安定した学習を達成します。
その後、共有制御メカニズムが活性化され、学習した人間誘導ポリシーを累積報酬を最大化する自己学習ポリシーと統合します。
これにより、エージェントは、人間のガイダンスを超えてパフォーマンスを独立して継続的に向上させることができます。
最後に、ポリシー信頼評価アルゴリズムは、DSACのリターンディストリビューションネットワークを活用して、信頼に基づく介入関数を介して人間誘導と自己学習ポリシーの動的な切り替えを促進します。
これにより、エージェントは安全性とパフォーマンスの保証を維持しながら、最適なポリシーを追求できます。
多様な運転シナリオ全体の広範な実験により、C-HACは、安全性、効率性、および全体的なパフォーマンスの点で従来の方法を大幅に上回り、最先端の結果を達成することが明らかになりました。
提案された方法の有効性は、複雑な交通条件での実際の道路試験を通じてさらに検証されます。
ビデオとコードは、https://github.com/lzqw/c-hacで入手できます。

要約(オリジナル)

Autonomous driving promises significant advancements in mobility, road safety and traffic efficiency, yet reinforcement learning and imitation learning face safe-exploration and distribution-shift challenges. Although human-AI collaboration alleviates these issues, it often relies heavily on extensive human intervention, which increases costs and reduces efficiency. This paper develops a confidence-guided human-AI collaboration (C-HAC) strategy to overcome these limitations. First, C-HAC employs a distributional proxy value propagation method within the distributional soft actor-critic (DSAC) framework. By leveraging return distributions to represent human intentions C-HAC achieves rapid and stable learning of human-guided policies with minimal human interaction. Subsequently, a shared control mechanism is activated to integrate the learned human-guided policy with a self-learning policy that maximizes cumulative rewards. This enables the agent to explore independently and continuously enhance its performance beyond human guidance. Finally, a policy confidence evaluation algorithm capitalizes on DSAC’s return distribution networks to facilitate dynamic switching between human-guided and self-learning policies via a confidence-based intervention function. This ensures the agent can pursue optimal policies while maintaining safety and performance guarantees. Extensive experiments across diverse driving scenarios reveal that C-HAC significantly outperforms conventional methods in terms of safety, efficiency, and overall performance, achieving state-of-the-art results. The effectiveness of the proposed method is further validated through real-world road tests in complex traffic conditions. The videos and code are available at: https://github.com/lzqw/C-HAC.

arxiv情報

著者 Li Zeqiao,Wang Yijing,Wang Haoyu,Li Zheng,Li Peng,Zuo zhiqiang,Hu Chuan
発行日 2025-06-04 04:31:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク