要約
マルチエージェントシステム(MAS)を含むあらゆるシステムにとって、高いタスクのパフォーマンスを実現し、安全性の制約を満たすことができる制御ポリシーが望ましいです。
MASの安全性を保証するための1つの有望な手法は、分散制御バリア関数(CBF)です。
ただし、特にタスクを達成できる分散高性能公称ポリシーが利用できない場合、未知の離散時間ダイナミクス、部分的な観測可能性、近隣の変化、および入力制約に取り組むことができるMAS向けの分散CBFベースのポリシーを設計することは困難です。
これらの課題に取り組むために、DGPPOを提案します。DGPPOは、近隣の変更と入力制約を処理する離散グラフCBFと、未知の離散時間ダイナミクスを持つMASの分散高性能安全ポリシーの両方を同時に学習する新しいフレームワークです。
3つの異なるシミュレーションエンジンにまたがる一連のマルチエージェントタスクに関する主張を経験的に検証します。
結果は、既存の方法と比較して、当社のDGPPOフレームワークは、高いタスクパフォーマンス(安全性の制約を無視するベースラインを一致させる)と高い安全レート(最も保守的なベースラインと一致する)を達成するポリシーを取得することを示唆しています。
環境。
要約(オリジナル)
Control policies that can achieve high task performance and satisfy safety constraints are desirable for any system, including multi-agent systems (MAS). One promising technique for ensuring the safety of MAS is distributed control barrier functions (CBF). However, it is difficult to design distributed CBF-based policies for MAS that can tackle unknown discrete-time dynamics, partial observability, changing neighborhoods, and input constraints, especially when a distributed high-performance nominal policy that can achieve the task is unavailable. To tackle these challenges, we propose DGPPO, a new framework that simultaneously learns both a discrete graph CBF which handles neighborhood changes and input constraints, and a distributed high-performance safe policy for MAS with unknown discrete-time dynamics. We empirically validate our claims on a suite of multi-agent tasks spanning three different simulation engines. The results suggest that, compared with existing methods, our DGPPO framework obtains policies that achieve high task performance (matching baselines that ignore the safety constraints), and high safety rates (matching the most conservative baselines), with a constant set of hyperparameters across all environments.
arxiv情報
著者 | Songyuan Zhang,Oswin So,Mitchell Black,Chuchu Fan |
発行日 | 2025-02-05 21:51:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google