The Update Equivalence Framework for Decision-Time Planning


– 決定時計画(decision-time planning)は、チェスや囲碁のような完全情報ゲームにおいて超人的なパフォーマンスを発揮するための鍵である。
– 最近の研究では、決定時計画を不完全情報ゲームに拡張することで、ポーカーなどで超人的なパフォーマンスが達成されている。
– しかし、このような手法は非公開情報の量に比例して急速に増加するサブゲームを考慮する必要があり、大量の非公開情報がある場合には役に立たなくなる。
– この問題に着目し、サブゲームではなく更新同等性の概念に基づいた決定時計画の代替フレームワークを導入する。
– このフレームワークでは、決定時計画アルゴリズムは同期学習アルゴリズムの更新をシミュレートする。
– このフレームワークにより、公開情報に依存しない新しい一連の原則に基づく決定時計画アルゴリズムが可能になり、大量の非公開情報が存在する状況での正確かつ効果的な決定時計画が可能になる。
– 実験では、この一族のメンバーがHanabiにおいて最先端の手法と同等または優れた結果を出し、3×3 Abrupt Dark HexやPhantom Tic-Tac-Toeでもパフォーマンスが向上した。


The process of revising (or constructing) a policy immediately prior to execution — known as decision-time planning — is key to achieving superhuman performance in perfect-information settings like chess and Go. A recent line of work has extended decision-time planning to more general imperfect-information settings, leading to superhuman performance in poker. However, these methods requires considering subgames whose sizes grow quickly in the amount of non-public information, making them unhelpful when the amount of non-public information is large. Motivated by this issue, we introduce an alternative framework for decision-time planning that is not based on subgames but rather on the notion of update equivalence. In this framework, decision-time planning algorithms simulate updates of synchronous learning algorithms. This framework enables us to introduce a new family of principled decision-time planning algorithms that do not rely on public information, opening the door to sound and effective decision-time planning in settings with large amounts of non-public information. In experiments, members of this family produce comparable or superior results compared to state-of-the-art approaches in Hanabi and improve performance in 3×3 Abrupt Dark Hex and Phantom Tic-Tac-Toe.


著者 Samuel Sokota,Gabriele Farina,David J. Wu,Hengyuan Hu,Kevin A. Wang,J. Zico Kolter,Noam Brown
発行日 2023-04-25 20:28:55+00:00
