HSVI-based Online Minimax Strategies for Partially Observable Stochastic Games with Neural Perception Mechanisms


一方のエージェントはニューラル ネットワークとして実装された観察機能により部分的な情報を持ち、もう一方のエージェントは状態について完全な知識を持っていると想定されます。
我々は、$\varepsilon$-minimax 戦略プロファイルを計算するための効率的なオンライン手法を初めて提示します。この手法では、敵の反事実値の複雑な推定の代わりに、すべての段階でエージェントごとに 1 つの線形プログラムを解くだけで済みます。
部分的に情報を知っているエージェントに対しては、相手の反事実値の代わりにヒューリスティック検索値反復 (HSVI) を使用してオフラインで事前計算された下限を使用する継続的解決アプローチを提案します。
十分な情報を持っているエージェントに対して、我々は推定信念戦略を提案します。この戦略では、エージェントは、HSVI からの (オフライン) 上限に基づいて、部分的に情報を知っているエージェントの信念についての推測された信念を維持し、エージェントまでの $\varepsilon$-距離を保証します。


We consider a variant of continuous-state partially-observable stochastic games with neural perception mechanisms and an asymmetric information structure. One agent has partial information, with the observation function implemented as a neural network, while the other agent is assumed to have full knowledge of the state. We present, for the first time, an efficient online method to compute an $\varepsilon$-minimax strategy profile, which requires only one linear program to be solved for each agent at every stage, instead of a complex estimation of opponent counterfactual values. For the partially-informed agent, we propose a continual resolving approach which uses lower bounds, pre-computed offline with heuristic search value iteration (HSVI), instead of opponent counterfactual values. This inherits the soundness of continual resolving at the cost of pre-computing the bound. For the fully-informed agent, we propose an inferred-belief strategy, where the agent maintains an inferred belief about the belief of the partially-informed agent based on (offline) upper bounds from HSVI, guaranteeing $\varepsilon$-distance to the value of the game at the initial belief known to both agents.


著者 Rui Yan,Gabriel Santos,Gethin Norman,David Parker,Marta Kwiatkowska
発行日 2024-04-16 15:58:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GT パーマリンク