Solving Hierarchical Information-Sharing Dec-POMDPs: An Extensive-Form Game Approach

要約

最近の理論では、マルチプレイヤーの分散型で部分的に観察可能なマルコフ決定プロセスを同等のシングルプレイヤー ゲームに変換できることが示されており、 \citeauthor{bellman} の最適性原理を適用してシングルプレイヤー ゲームを壊すことで解決できることが可能です。
シングルステージのサブゲームまで。
ただし、このアプローチでは、各単一ステージのサブゲームですべてのプレイヤーの決定変数が複雑になり、バックアップが 2 倍の指数関数的に複雑になります。
この論文では、私たちの社会で顕著な管理スタイルである階層型情報共有の下で最適性を維持しながら、これらの意思決定変数を解きほぐす方法を示します。
これを達成するために、最適性の原則を適用して、単一ステージのサブゲームをさらに小さなサブゲームに分割することで解決し、一度にシングル プレイヤーの意思決定ができ​​るようにします。
私たちのアプローチは、拡張形式のゲームが常に単一ステージのサブゲームに対する解決策とともに存在し、時間の複雑さを大幅に軽減することを明らかにしています。
私たちの実験結果は、これらの発見を活用したアルゴリズムが、最適性を損なうことなく、はるかに大規模なマルチプレイヤー ゲームにスケールアップできることを示しています。

要約(オリジナル)

A recent theory shows that a multi-player decentralized partially observable Markov decision process can be transformed into an equivalent single-player game, enabling the application of \citeauthor{bellman}’s principle of optimality to solve the single-player game by breaking it down into single-stage subgames. However, this approach entangles the decision variables of all players at each single-stage subgame, resulting in backups with a double-exponential complexity. This paper demonstrates how to disentangle these decision variables while maintaining optimality under hierarchical information sharing, a prominent management style in our society. To achieve this, we apply the principle of optimality to solve any single-stage subgame by breaking it down further into smaller subgames, enabling us to make single-player decisions at a time. Our approach reveals that extensive-form games always exist with solutions to a single-stage subgame, significantly reducing time complexity. Our experimental results show that the algorithms leveraging these findings can scale up to much larger multi-player games without compromising optimality.

arxiv情報

著者 Johan Peralez,Aurélien Delage,Olivier Buffet,Jilles S. Dibangoye
発行日 2025-01-02 17:10:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GT, cs.LG パーマリンク