Strategy Synthesis for Zero-Sum Neuro-Symbolic Concurrent Stochastic Games

要約

タイトル:Zero-Sum Neuro-Symbolic Concurrent Stochastic Gamesのための戦略合成

要約:
-神経記号的アプローチによる人工知能は、古典的な記号的技術と神経ネットワークを組み合わせたもので、注目されている。その正しさについての形式的アプローチが必要となっている。
-我々は、probabilistic finite-stateエージェントが神経ネットワークで実装された認識メカニズムを通じて観測される共有連続状態環境で相互作用する神経記号的並列確率ゲーム(NS-CSGs)という新しいモデリング形式を提案する。
-NS-CSGsのクラスに焦点を当て、Borel状態空間のゼロ和割引累積報酬に対する価値関数の存在と測定可能性を証明する。
-価値を計算し、戦略を合成するために、連続状態CSGのクラスを解決するための実装可能な価値反復(VI)とポリシー反復(PI)アルゴリズムを初めて提供する。
-VIとPIによる値関数と戦略の有限の抽象表現を提供し、VIまたはPIによって閉じられたものにする必要がある。
-価値関数のボレル可測な分段定数(B-PWC)表示を紹介し、この表現を最小最大バックアップに拡張して、B-PWC VIを提案する。
-更に、値関数と戦略のための2つの新しい表現、定数分割線形(CON-PWL)と定数分割定数(CON-PWC)を紹介する。そして、有限状態空間に対する交互プレイヤーの選択に基づく最近のPI法をBorel状態空間に拡張し、ミニマックス・アクション・フリー PIを提案する。
-動的車両駐車場の例を使用して、B-PWC VIアルゴリズムのプロトタイプ実装を用いて、ほぼ最適な戦略を生成することで、我々のアプローチを説明する。

要約(オリジナル)

Neuro-symbolic approaches to artificial intelligence, which combine neural networks with classical symbolic techniques, are growing in prominence, necessitating formal approaches to reason about their correctness. We propose a novel modelling formalism called neuro-symbolic concurrent stochastic games (NS-CSGs), which comprise probabilistic finite-state agents interacting in a shared continuous-state environment observed through perception mechanisms implemented as neural networks (NNs). We focus on the class of NS-CSGs with Borel state spaces and prove the existence and measurability of the value function for zero-sum discounted cumulative rewards under piecewise-constant restrictions on the components of this class of models. To compute values and synthesise strategies, we present, for the first time, implementable value iteration (VI) and policy iteration (PI) algorithms to solve a class of continuous-state CSGs. These require a finite representation of the pre-image of the environment’s NN perception mechanism and rely on finite abstract representations of value functions and strategies closed under VI or PI. First, we introduce a Borel measurable piecewise-constant (B-PWC) representation of value functions, extend minimax backups to this representation and propose B-PWC VI. Second, we introduce two novel representations for the value functions and strategies, constant-piecewise-linear (CON-PWL) and constant-piecewise-constant (CON-PWC) respectively, and propose Minimax-action-free PI by extending a recent PI method based on alternating player choices for finite state spaces to Borel state spaces, which does not require normal-form games to be solved. We illustrate our approach with a dynamic vehicle parking example by generating approximately optimal strategies using a prototype implementation of the B-PWC VI algorithm.

arxiv情報

著者 Rui Yan,Gabriel Santos,Gethin Norman,David Parker,Marta Kwiatkowska
発行日 2023-04-12 14:53:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.GT, cs.LO パーマリンク