The Update-Equivalence Framework for Decision-Time Planning

要約

実行時にポリシーを修正 (または構築) するプロセス (意思決定時計画と呼ばれる) は、チェスや囲碁などの完全情報ゲームで超人的なパフォーマンスを達成するための鍵となってきました。
最近の取り組みでは、意思決定時間のプランニングを不完全情報ゲームにまで拡張し、ポーカーでの超人的なパフォーマンスにつながりました。
ただし、これらの方法では、非公開情報の量が増えるにつれてサイズが急速に増大するサブゲームを解決する必要があるため、非公開情報の量が多い場合には役に立ちません。
この問題をきっかけに、サブゲームの解決ではなく更新の等価性に基づく、意思決定時計画の代替フレームワークを導入します。
この更新等価性フレームワークでは、意思決定時計画アルゴリズムが最終反復アルゴリズムの更新を複製するため、公開情報に依存する必要がありません。
これにより、大量の非公開情報を含むゲームへのスケーラビリティが容易になります。
このフレームワークを使用して、ミラー降下に基づく完全協力ゲーム用の確実な検索アルゴリズムと、磁気ミラー降下に基づく敵対ゲーム用の検索アルゴリズムを導き出します。
我々は、協力的ドメインと敵対的ドメイン、特に完全協力型不完全情報ゲームにおける検索の標準ベンチマークである Hanabi で、これらのアルゴリズムのパフォーマンスを検証します。
ここで、ミラー降下アプローチは、検索時間を 2 桁短縮しながら、公開情報ベースの検索のパフォーマンスを上回るかそれに匹敵します。
これは、非公開情報ベースのアルゴリズムが、歴史的に支配されてきた領域において公開情報ベースのアプローチを上回るパフォーマンスを示した最初の例です。

要約(オリジナル)

The process of revising (or constructing) a policy at execution time — known as decision-time planning — has been key to achieving superhuman performance in perfect-information games like chess and Go. A recent line of work has extended decision-time planning to imperfect-information games, leading to superhuman performance in poker. However, these methods involve solving subgames whose sizes grow quickly in the amount of non-public information, making them unhelpful when the amount of non-public information is large. Motivated by this issue, we introduce an alternative framework for decision-time planning that is not based on solving subgames, but rather on update equivalence. In this update-equivalence framework, decision-time planning algorithms replicate the updates of last-iterate algorithms, which need not rely on public information. This facilitates scalability to games with large amounts of non-public information. Using this framework, we derive a provably sound search algorithm for fully cooperative games based on mirror descent and a search algorithm for adversarial games based on magnetic mirror descent. We validate the performance of these algorithms in cooperative and adversarial domains, notably in Hanabi, the standard benchmark for search in fully cooperative imperfect-information games. Here, our mirror descent approach exceeds or matches the performance of public information-based search while using two orders of magnitude less search time. This is the first instance of a non-public-information-based algorithm outperforming public-information-based approaches in a domain they have historically dominated.

arxiv情報

著者 Samuel Sokota,Gabriele Farina,David J. Wu,Hengyuan Hu,Kevin A. Wang,J. Zico Kolter,Noam Brown
発行日 2024-05-13 14:34:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク