Strategy Synthesis for Zero-Sum Neuro-Symbolic Concurrent Stochastic Games

要約

ニューラル ネットワークと古典的な記号技術を組み合わせた、人工知能への神経記号的アプローチが注目を集めており、その正しさを推論するための正式なアプローチが必要になっています。
我々は、共有された連続状態環境で相互作用する 2 つの確率的有限状態エージェントで構成される神経記号同時確率ゲーム (NS-CSG) と呼ばれる新しいモデリング形式を提案します。
各エージェントは、画像などの入力を象徴的な知覚に変換する神経知覚メカニズムを使用して環境を観察し、象徴的に意思決定を行います。
我々は、Borel 状態空間を持つ NS-CSG のクラスに焦点を当て、このクラスのモデルのコンポーネントに対する区分定数制限の下でのゼロサム割引累積報酬の価値関数の存在と測定可能性を証明します。
値を計算して戦略を合成するために、連続状態 CSG のこの新しいサブクラスを解決する実用的な値反復 (VI) およびポリシー反復 (PI) アルゴリズムを初めて提示します。
これらは、エージェントの神経知覚メカニズムによって引き起こされる環境の有限の分解を必要とし、VI または PI の下で閉じられた価値関数と戦略の有限の抽象表現に依存します。
まず、値関数の Borel 可測区分定数 (B-PWC) 表現を導入し、ミニマックス バックアップをこの表現に拡張し、B-PWC VI と呼ばれる値反復アルゴリズムを提案します。
次に、値関数と戦略の 2 つの新しい表現、定数区分的線形 (CON-PWL) と定数区分的定数 (CON-PWC) をそれぞれ導入し、最近の PI を拡張することでミニマックス アクションフリー PI を提案します。
この方法は、有限状態空間とボレル状態空間に対するプレイヤーの選択を交互に行うことに基づいており、正規形式のゲームを解く必要がありません。

要約(オリジナル)

Neuro-symbolic approaches to artificial intelligence, which combine neural networks with classical symbolic techniques, are growing in prominence, necessitating formal approaches to reason about their correctness. We propose a novel modelling formalism called neuro-symbolic concurrent stochastic games (NS-CSGs), which comprise two probabilistic finite-state agents interacting in a shared continuous-state environment. Each agent observes the environment using a neural perception mechanism, which converts inputs such as images into symbolic percepts, and makes decisions symbolically. We focus on the class of NS-CSGs with Borel state spaces and prove the existence and measurability of the value function for zero-sum discounted cumulative rewards under piecewise-constant restrictions on the components of this class of models. To compute values and synthesise strategies, we present, for the first time, practical value iteration (VI) and policy iteration (PI) algorithms to solve this new subclass of continuous-state CSGs. These require a finite decomposition of the environment induced by the neural perception mechanisms of the agents and rely on finite abstract representations of value functions and strategies closed under VI or PI. First, we introduce a Borel measurable piecewise-constant (B-PWC) representation of value functions, extend minimax backups to this representation and propose a value iteration algorithm called B-PWC VI. Second, we introduce two novel representations for the value functions and strategies, constant-piecewise-linear (CON-PWL) and constant-piecewise-constant (CON-PWC) respectively, and propose Minimax-action-free PI by extending a recent PI method based on alternating player choices for finite state spaces to Borel state spaces, which does not require normal-form games to be solved.

arxiv情報

著者 Rui Yan,Gabriel Santos,Gethin Norman,David Parker,Marta Kwiatkowska
発行日 2024-07-11 15:40:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GT, cs.LO パーマリンク