要約
安全な補強学習(RL)は、実際のアプリケーションにとって重要であり、マルチエージェントの相互作用は追加の安全上の課題をもたらします。
確率論的論理シールド(PLS)は、単一エージェントRLの安全性を実施する強力な提案でしたが、マルチエージェント設定に対する一般化可能性は未開拓のままです。
この論文では、分散型のマルチエージェント環境内でPLSの広範な分析を実施することにより、このギャップに対処し、そうすることで、MARLを標準的な結果に導くための一般的な枠組みとしてシールドされたマルチエージェント補強学習(SMARL)を提案します。
私たちの重要な貢献は次のとおりです。(1)シールドされた独立したQラーニングの新しい確率論的論理時間差(PLTD)更新。
(2)MARLの正式な安全保証を使用して、PPOを保護するための確率論的論理ポリシー勾配法。
(3)対称的および非対称的にシールドされた包括的な評価$ n $ n $ -Playerゲーム理論ベンチマークは、制約違反が少なく、規範的制約の下での大幅な協力を示しています。
これらの結果は、Smarlを平衡選択の効果的なメカニズムとして位置付け、より安全で社会的に整合したマルチエージェントシステムへの道を開いています。
要約(オリジナル)
Safe reinforcement learning (RL) is crucial for real-world applications, and multi-agent interactions introduce additional safety challenges. While Probabilistic Logic Shields (PLS) has been a powerful proposal to enforce safety in single-agent RL, their generalizability to multi-agent settings remains unexplored. In this paper, we address this gap by conducting extensive analyses of PLS within decentralized, multi-agent environments, and in doing so, propose Shielded Multi-Agent Reinforcement Learning (SMARL) as a general framework for steering MARL towards norm-compliant outcomes. Our key contributions are: (1) a novel Probabilistic Logic Temporal Difference (PLTD) update for shielded, independent Q-learning, which incorporates probabilistic constraints directly into the value update process; (2) a probabilistic logic policy gradient method for shielded PPO with formal safety guarantees for MARL; and (3) comprehensive evaluation across symmetric and asymmetrically shielded $n$-player game-theoretic benchmarks, demonstrating fewer constraint violations and significantly better cooperation under normative constraints. These results position SMARL as an effective mechanism for equilibrium selection, paving the way toward safer, socially aligned multi-agent systems.
arxiv情報
著者 | Satchit Chatterji,Erman Acar |
発行日 | 2025-05-14 13:30:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google