要約
強化学習 (RL) アルゴリズムを現実世界に展開できるようにするための重要な課題は、安全性です。
これは、安全な最適なポリシーを学習することを目的とした Safe RL という最近の研究分野につながりました。
この方向で成功したアプローチの 1 つは、確率的ロジック シールド (PLS) です。これはモデルベースの Safe RL 技術であり、確率的論理プログラミングに基づいた正式な仕様を使用し、確率的な意味でエージェントのポリシーをそれらの仕様に準拠するように制約します。
ただし、現実の環境では複数のエージェントが同時に対話することが多く、制御が困難な複雑なシステムが生じるため、安全性は本質的にマルチエージェントの概念です。
さらに、安全なマルチエージェント RL (Safe MARL) はまだ研究されていません。
このギャップに対処するために、この論文では、PLS を MARL に拡張することによってシールド MARL (SMARL) を導入します。特に、シールドされた独立した Q 学習を可能にする確率的論理時間差分学習 (PLTD) を導入します (
SIQL)、確率的論理ポリシー勾配を使用したシールドされた独立 PPO (SIPPO) を導入します。
($ii$) は、2 人同時ゲーム、拡張形式ゲーム、確率的ゲーム、安全性、協力、
そして規範的な行動との整合性。
そして、($iii$) 1 つのエージェントだけがシールドされている非対称のケースを調査し、シールドされたエージェントがシールドされていないエージェントに重大な影響を与えていることを示し、多様なマルチエージェント環境で安全性と協力を強化する SMARL の能力のさらなる証拠を提供します。
。
要約(オリジナル)
An important challenge for enabling the deployment of reinforcement learning (RL) algorithms in the real world is safety. This has resulted in the recent research field of Safe RL, which aims to learn optimal policies that are safe. One successful approach in that direction is probabilistic logic shields (PLS), a model-based Safe RL technique that uses formal specifications based on probabilistic logic programming, constraining an agent’s policy to comply with those specifications in a probabilistic sense. However, safety is inherently a multi-agent concept, since real-world environments often involve multiple agents interacting simultaneously, leading to a complex system which is hard to control. Moreover, safe multi-agent RL (Safe MARL) is still underexplored. In order to address this gap, in this paper we ($i$) introduce Shielded MARL (SMARL) by extending PLS to MARL — in particular, we introduce Probabilistic Logic Temporal Difference Learning (PLTD) to enable shielded independent Q-learning (SIQL), and introduce shielded independent PPO (SIPPO) using probabilistic logic policy gradients; ($ii$) show its positive effect and use as an equilibrium selection mechanism in various game-theoretic environments including two-player simultaneous games, extensive-form games, stochastic games, and some grid-world extensions in terms of safety, cooperation, and alignment with normative behaviors; and ($iii$) look into the asymmetric case where only one agent is shielded, and show that the shielded agent has a significant influence on the unshielded one, providing further evidence of SMARL’s ability to enhance safety and cooperation in diverse multi-agent environments.
arxiv情報
著者 | Satchit Chatterji,Erman Acar |
発行日 | 2024-11-07 16:59:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google