Hierarchical Deep Counterfactual Regret Minimization

要約

不完全情報ゲーム (IIG) は、意思決定者が不確実性に直面したり完全な情報が不足したりするシナリオに堅牢なモデルを提供します。
Counterfactual Regret Minimization (CFR) は、IIG に対処するための最も成功したアルゴリズム ファミリーの 1 つです。
スキルベースの戦略学習と CFR を統合すると、より人間らしい意思決定プロセスが反映され、複雑な IIG の学習パフォーマンスが向上する可能性があります。
これにより、階層的な戦略の学習が可能になります。低レベルのコンポーネントはサブゲームを解決するためのスキルを表し、高レベルのコンポーネントはスキル間の移行を管理します。
この論文では、非常に大規模な状態空間と深いゲーム ツリーを含むタスクの学習効率を高める革新的な手法である Deep CFR (HDCFR) の最初の階層バージョンを紹介します。
以前の作品に対する HDCFR の注目すべき利点は、事前に定義された (人間の) 専門知識による学習を促進し、同様のタスクに応用できるスキルの習得を促進できることです。
これを達成するために、最初に、階層的な CFR 更新ルールと分散を低減したモンテカルロ サンプリング拡張を含む、表形式の設定に基づいてアルゴリズムを構築します。
特に、提案された更新ルールの収束率、モンテカルロ後悔推定量の不偏性、効果的な分散削減のための理想的な基準などの理論的根拠を提供します。
次に、関数近似器としてニューラル ネットワークを使用し、理論的なサポートを維持しながら、提案したアルゴリズムを大規模なタスクに適応させる深層学習目標を開発します。

要約(オリジナル)

Imperfect Information Games (IIGs) offer robust models for scenarios where decision-makers face uncertainty or lack complete information. Counterfactual Regret Minimization (CFR) has been one of the most successful family of algorithms for tackling IIGs. The integration of skill-based strategy learning with CFR could potentially mirror more human-like decision-making process and enhance the learning performance for complex IIGs. It enables the learning of a hierarchical strategy, wherein low-level components represent skills for solving subgames and the high-level component manages the transition between skills. In this paper, we introduce the first hierarchical version of Deep CFR (HDCFR), an innovative method that boosts learning efficiency in tasks involving extensively large state spaces and deep game trees. A notable advantage of HDCFR over previous works is its ability to facilitate learning with predefined (human) expertise and foster the acquisition of skills that can be transferred to similar tasks. To achieve this, we initially construct our algorithm on a tabular setting, encompassing hierarchical CFR updating rules and a variance-reduced Monte Carlo sampling extension. Notably, we offer the theoretical justifications, including the convergence rate of the proposed updating rule, the unbiasedness of the Monte Carlo regret estimator, and ideal criteria for effective variance reduction. Then, we employ neural networks as function approximators and develop deep learning objectives to adapt our proposed algorithms for large-scale tasks, while maintaining the theoretical support.

arxiv情報

著者 Jiayu Chen,Tian Lan,Vaneet Aggarwal
発行日 2023-09-26 13:54:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク