Conjectural Online Learning with First-order Beliefs in Asymmetric Information Stochastic Games

要約

非対称情報確率ゲーム (AISG) は、サイバー物理システムや IT インフラストラクチャなど、多くの複雑な社会技術システムで発生します。
AISG の既存の計算手法は主にオフラインであり、平衡偏差に適応できません。
さらに、現在の方法は信念階層を避けるために特定の情報構造に限定されています。
これらの制限を考慮して、我々は、AISG の一般的な情報構造の下でのオンライン学習方法である推測オンライン学習 (COL) を提案します。
COL は、予測者-俳優-批評家 (FAC) アーキテクチャを使用します。このアーキテクチャでは、主観的な予測を使用して先読みの範囲内で敵の戦略を推測し、ベイジアン学習を使用して推測を調整します。
情報フィードバックに基づいて戦略を非定常環境に適応させるために、COL はコスト関数近似 (アクター – クリティカル) を使用したオンライン ロールアウトを使用します。
我々は、COL によって生成された推測が、緩和ベイズ整合性の意味で情報フィードバックと漸近的に整合していることを証明します。
また、COL によって引き起こされる経験的戦略プロファイルが、主観性のもとでの合理性を特徴づける解決概念であるバーク・ナッシュ均衡に収束することも証明します。
侵入応答ユースケースの実験結果は、非定常攻撃に対する COL の最先端の強化学習手法に対する {より高速な収束} を示しています。

要約(オリジナル)

Asymmetric information stochastic games (AISGs) arise in many complex socio-technical systems, such as cyber-physical systems and IT infrastructures. Existing computational methods for AISGs are primarily offline and can not adapt to equilibrium deviations. Further, current methods are limited to particular information structures to avoid belief hierarchies. Considering these limitations, we propose conjectural online learning (COL), an online learning method under generic information structures in AISGs. COL uses a forecaster-actor-critic (FAC) architecture, where subjective forecasts are used to conjecture the opponents’ strategies within a lookahead horizon, and Bayesian learning is used to calibrate the conjectures. To adapt strategies to nonstationary environments based on information feedback, COL uses online rollout with cost function approximation (actor-critic). We prove that the conjectures produced by COL are asymptotically consistent with the information feedback in the sense of a relaxed Bayesian consistency. We also prove that the empirical strategy profile induced by COL converges to the Berk-Nash equilibrium, a solution concept characterizing rationality under subjectivity. Experimental results from an intrusion response use case demonstrate COL’s {faster convergence} over state-of-the-art reinforcement learning methods against nonstationary attacks.

arxiv情報

著者 Tao Li,Kim Hammar,Rolf Stadler,Quanyan Zhu
発行日 2024-08-19 16:45:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GT, cs.LG, cs.SY, eess.SY パーマリンク