Safety Guarantees in Multi-agent Learning via Trapping Regions

要約

マルチエージェント学習の主な課題の 1 つは、アルゴリズムの収束を確立することにあります。一般に、個々のセルフサービス エージェントのコレクションは、同時に学習する場合、それらの共同ポリシーで収束することが保証されていないためです。
これは、ほとんどの単一エージェント環境とはまったく対照的であり、システムの長期的な動作に不確実性を誘発するため、実際のアプリケーションへの展開に禁止的な障壁を設定します。
この作業では、動的システムの質的理論から知られているトラッピング領域の概念を適用して、分散学習のための共同戦略空間に安全セットを作成することを提案します。
ダイナミクスの学習の方向性が検証されると、結果として得られる軌跡は、学習プロセス中にそのようなセットから逃れないことが保証されます。
その結果、適用されたアルゴリズムの収束に関する不確実性にもかかわらず、学習が危険な共同戦略の組み合わせを決して形成しないことが保証されます。
既知の学習ダイナミクスを持つシステムのトラッピング領域を検証するためのバイナリ分割アルゴリズムと、学習ダイナミクスが不明なシナリオのためのヒューリスティック サンプリング アルゴリズムを紹介します。
さらに、不動点引数を介して、トラッピング領域内の学習平衡の存在を示します。
Dirac Generative Adversarial Network の正則化されたバージョン、最先端のオープンソースの微視的トラフィ​​ック シミュレータ SUMO で実行される 4 つの交差点のトラフィック制御シナリオ、および経済競争の数学的モデルへのアプリケーションを示します。

要約(オリジナル)

One of the main challenges of multi-agent learning lies in establishing convergence of the algorithms, as, in general, a collection of individual, self-serving agents is not guaranteed to converge with their joint policy, when learning concurrently. This is in stark contrast to most single-agent environments, and sets a prohibitive barrier for deployment in practical applications, as it induces uncertainty in long term behavior of the system. In this work, we propose to apply the concept of trapping regions, known from qualitative theory of dynamical systems, to create safety sets in the joint strategy space for decentralized learning. Upon verification of the direction of learning dynamics, the resulting trajectories are guaranteed not to escape such sets, during the learning process. As a result, it is ensured, that despite the uncertainty over convergence of the applied algorithms, learning will never form hazardous joint strategy combinations. We introduce a binary partitioning algorithm for verification of trapping regions in systems with known learning dynamics, and a heuristic sampling algorithm for scenarios where learning dynamics are not known. In addition, via a fixed point argument, we show the existence of a learning equilibrium within a trapping region. We demonstrate the applications to a regularized version of Dirac Generative Adversarial Network, a four-intersection traffic control scenario run in a state of the art open-source microscopic traffic simulator SUMO, and a mathematical model of economic competition.

arxiv情報

著者 Aleksander Czechowski,Frans A. Oliehoek
発行日 2023-02-27 14:47:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA パーマリンク