Collision Avoidance Verification of Multiagent Systems with Learned Policies

要約

多くのマルチエージェント制御の問題に対して、ニューラル ネットワーク (NN) によって有望な新機能が可能になりました。
しかし、これらのシステムの多くには正式な保証 (衝突回避、堅牢性など) が欠けており、安全性が重要な設定でこれらの進歩を活用することができません。
最近、NN 制御システムの正式な検証に関する研究が行われていますが、既存の技術のほとんどは複数のエージェントを使用するシナリオを処理できません。
この研究ギャップに対処するために、この論文では、マルチエージェント ニューラル フィードバック ループ (MA-NFL) の衝突回避特性を検証するための後方到達可能性ベースのアプローチを紹介します。
各エージェントのダイナミクス モデルと訓練された制御ポリシーを考慮して、提案されたアルゴリズムは、エージェントのペアごとにオフラインで一連の混合整数線形計画法 (MILP) を解くことにより、相対逆投影セットを計算します。
私たちのペアワイズ アプローチは並列化可能であるため、エージェントの数の増加に合わせて適切に拡張でき、状態測定の不確実性を考慮して、現実世界のシナリオとよく整合します。
これらの結果を使用して、エージェントは低次元の線形計画 (LP) を解くことにより、オンラインで衝突回避を迅速にチェックできます。
提案されたアルゴリズムが、衝突回避アルゴリズム (相互速度障害) を模倣するように訓練されたエージェントを使用して MA-NFL の衝突のない特性を検証できることを実証します。
さらに、最大 10 のエージェントを備えたシステムにおけるこのアプローチの計算スケーラビリティを実証します。

要約(オリジナル)

For many multiagent control problems, neural networks (NNs) have enabled promising new capabilities. However, many of these systems lack formal guarantees (e.g., collision avoidance, robustness), which prevents leveraging these advances in safety-critical settings. While there is recent work on formal verification of NN-controlled systems, most existing techniques cannot handle scenarios with more than one agent. To address this research gap, this paper presents a backward reachability-based approach for verifying the collision avoidance properties of Multi-Agent Neural Feedback Loops (MA-NFLs). Given the dynamics models and trained control policies of each agent, the proposed algorithm computes relative backprojection sets by solving a series of Mixed Integer Linear Programs (MILPs) offline for each pair of agents. Our pair-wise approach is parallelizable and thus scales well with increasing number of agents, and we account for state measurement uncertainties, making it well aligned with real-world scenarios. Using those results, the agents can quickly check for collision avoidance online by solving low-dimensional Linear Programs (LPs). We demonstrate the proposed algorithm can verify collision-free properties of a MA-NFL with agents trained to imitate a collision avoidance algorithm (Reciprocal Velocity Obstacles). We further demonstrate the computational scalability of the approach on systems with up to 10 agents.

arxiv情報

著者 Zihao Dong,Shayegan Omidshafiei,Michael Everett
発行日 2024-03-05 20:36:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MA, cs.RO, cs.SY, eess.SY パーマリンク