MARL-OT: Multi-Agent Reinforcement Learning Guided Online Fuzzing to Detect Safety Violation in Autonomous Driving Systems

要約

現実世界の安全違反は重大な損失をもたらす可能性があるため、自律運転システム(ADSS)は安全性が批判的です。
展開前は厳密なテストが不可欠であり、シミュレーションテストが重要な役割を果たしています。
ただし、ADSは通常、認識や計画などの複数のモジュール、またはよく訓練されたエンドツーエンドの自律駆動システムで構成されています。
遺伝的アルゴリズム(GA)などのオフライン方法は、ダイナミクスの事前定義された軌跡のみを生成することができます。これは、進化的な性質のためにさまざまなシナリオでADSSの安全違反を迅速かつ効率的に引き起こすのに苦労しています。
シングルエージェント強化学習(RL)などのオンライン方法は、さまざまなシナリオに適応するためにダイナミクスの軌跡をオンラインで迅速に調整できますが、複数の車両間の複雑な相互作用から生じる広告の複雑なコーナーケースをキャプチャするのに苦労しています。
マルチエージェント強化学習(MARL)は、協力的なタスクに強い能力を持っています。
一方、特に収束に伴う独自の課題に直面しています。
このペーパーでは、Marl-OTを紹介します。Marl-OTは、Marlを活用して周囲の車両の協力に起因する広告の安全違反を検出するスケーラブルなフレームワークです。
Marl-OTはMarlを採用して高レベルのガイダンスを採用しており、ルールベースのオンラインFuzzerのさまざまな危険なシナリオをトリガーして、広告の潜在的な安全違反を調査し、それによって動的で現実的な安全違反シナリオを生成します。
私たちのアプローチは、検出された安全違反率を最新の(SOTA)テスト手法と比較して最大136.2%改善します。

要約(オリジナル)

Autonomous Driving Systems (ADSs) are safety-critical, as real-world safety violations can result in significant losses. Rigorous testing is essential before deployment, with simulation testing playing a key role. However, ADSs are typically complex, consisting of multiple modules such as perception and planning, or well-trained end-to-end autonomous driving systems. Offline methods, such as the Genetic Algorithm (GA), can only generate predefined trajectories for dynamics, which struggle to cause safety violations for ADSs rapidly and efficiently in different scenarios due to their evolutionary nature. Online methods, such as single-agent reinforcement learning (RL), can quickly adjust the dynamics’ trajectory online to adapt to different scenarios, but they struggle to capture complex corner cases of ADS arising from the intricate interplay among multiple vehicles. Multi-agent reinforcement learning (MARL) has a strong ability in cooperative tasks. On the other hand, it faces its own challenges, particularly with convergence. This paper introduces MARL-OT, a scalable framework that leverages MARL to detect safety violations of ADS resulting from surrounding vehicles’ cooperation. MARL-OT employs MARL for high-level guidance, triggering various dangerous scenarios for the rule-based online fuzzer to explore potential safety violations of ADS, thereby generating dynamic, realistic safety violation scenarios. Our approach improves the detected safety violation rate by up to 136.2% compared to the state-of-the-art (SOTA) testing technique.

arxiv情報

著者 Linfeng Liang,Xi Zheng
発行日 2025-01-24 12:34:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SE パーマリンク