Strategy Synthesis for Zero-Sum Neuro-Symbolic Concurrent Stochastic Games


タイトル:Zero-Sum Neuro-Symbolic Concurrent Stochastic Gamesのための戦略合成

-我々は、probabilistic finite-stateエージェントが神経ネットワークで実装された認識メカニズムを通じて観測される共有連続状態環境で相互作用する神経記号的並列確率ゲーム(NS-CSGs)という新しいモデリング形式を提案する。
-価値関数のボレル可測な分段定数(B-PWC)表示を紹介し、この表現を最小最大バックアップに拡張して、B-PWC VIを提案する。
-更に、値関数と戦略のための2つの新しい表現、定数分割線形(CON-PWL)と定数分割定数(CON-PWC)を紹介する。そして、有限状態空間に対する交互プレイヤーの選択に基づく最近のPI法をBorel状態空間に拡張し、ミニマックス・アクション・フリー PIを提案する。
-動的車両駐車場の例を使用して、B-PWC VIアルゴリズムのプロトタイプ実装を用いて、ほぼ最適な戦略を生成することで、我々のアプローチを説明する。


Neuro-symbolic approaches to artificial intelligence, which combine neural networks with classical symbolic techniques, are growing in prominence, necessitating formal approaches to reason about their correctness. We propose a novel modelling formalism called neuro-symbolic concurrent stochastic games (NS-CSGs), which comprise probabilistic finite-state agents interacting in a shared continuous-state environment observed through perception mechanisms implemented as neural networks (NNs). We focus on the class of NS-CSGs with Borel state spaces and prove the existence and measurability of the value function for zero-sum discounted cumulative rewards under piecewise-constant restrictions on the components of this class of models. To compute values and synthesise strategies, we present, for the first time, implementable value iteration (VI) and policy iteration (PI) algorithms to solve a class of continuous-state CSGs. These require a finite representation of the pre-image of the environment’s NN perception mechanism and rely on finite abstract representations of value functions and strategies closed under VI or PI. First, we introduce a Borel measurable piecewise-constant (B-PWC) representation of value functions, extend minimax backups to this representation and propose B-PWC VI. Second, we introduce two novel representations for the value functions and strategies, constant-piecewise-linear (CON-PWL) and constant-piecewise-constant (CON-PWC) respectively, and propose Minimax-action-free PI by extending a recent PI method based on alternating player choices for finite state spaces to Borel state spaces, which does not require normal-form games to be solved. We illustrate our approach with a dynamic vehicle parking example by generating approximately optimal strategies using a prototype implementation of the B-PWC VI algorithm.


著者 Rui Yan,Gabriel Santos,Gethin Norman,David Parker,Marta Kwiatkowska
発行日 2023-04-12 14:53:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.AI, cs.GT, cs.LO パーマリンク