要約
マルチエージェントの安全性クリティカルなシナリオでは、従来の自律的な運転フレームワークは、安全性の制約とタスクのパフォーマンスのバランスをとる上で大きな課題に直面しています。
これらのフレームワークは、動的な相互作用のリスクをリアルタイムで定量化するのに苦労し、手動ルールに大きく依存しているため、計算効率と保守的な戦略が低くなります。
これらの制限に対処するために、安全性が強化されたネットワーク化されたマルコフ決定プロセスに基づいた動的な残留安全補強学習(DRS-RL)フレームワークを提案します。
弱から強い理論がマルチエージェントの意思決定に導入されたのは初めてであり、弱から強い安全補正パラダイムを介して安全境界の軽量動的キャリブレーションを可能にします。
マルチエージェントダイナミック競合ゾーンモデルに基づいて、当社のフレームワークは、不均一な交通参加者の間の時空間結合リスクを正確にキャプチャし、従来の幾何学的規則の静的な制約を上回ります。
さらに、リスク認識の優先順位付けされたエクスペリエンスリプレイメカニズムは、リスクをサンプリングする確率にマッピングすることにより、データ分布バイアスを緩和します。
実験結果は、提案された方法が、安全性、効率、快適性における従来のRLアルゴリズムを大幅に上回ることを明らかにしています。
具体的には、衝突率を最大92.17%削減しますが、安全モデルはメインモデルのパラメーターの27%のみを占めています。
要約(オリジナル)
In multi-agent safety-critical scenarios, traditional autonomous driving frameworks face significant challenges in balancing safety constraints and task performance. These frameworks struggle to quantify dynamic interaction risks in real-time and depend heavily on manual rules, resulting in low computational efficiency and conservative strategies. To address these limitations, we propose a Dynamic Residual Safe Reinforcement Learning (DRS-RL) framework grounded in a safety-enhanced networked Markov decision process. It’s the first time that the weak-to-strong theory is introduced into multi-agent decision-making, enabling lightweight dynamic calibration of safety boundaries via a weak-to-strong safety correction paradigm. Based on the multi-agent dynamic conflict zone model, our framework accurately captures spatiotemporal coupling risks among heterogeneous traffic participants and surpasses the static constraints of conventional geometric rules. Moreover, a risk-aware prioritized experience replay mechanism mitigates data distribution bias by mapping risk to sampling probability. Experimental results reveal that the proposed method significantly outperforms traditional RL algorithms in safety, efficiency, and comfort. Specifically, it reduces the collision rate by up to 92.17%, while the safety model accounts for merely 27% of the main model’s parameters.
arxiv情報
著者 | Kaifeng Wang,Yinsong Chen,Qi Liu,Xueyuan Li,Xin Gao |
発行日 | 2025-04-09 08:13:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google