Interpretability, Generalizability, and Memory of Reinforcement Learning Agents in Closed Drafting Games

要約

クローズド ドラフトまたは「ピック アンド パス」は、各ラウンドのプレーヤーが手札からカードまたはその他のプレイ可能な要素を選択し、残りを次のプレーヤーに渡す人気のゲーム メカニズムです。
この論文では、クローズド ドラフティング ゲームをプレイするモデルフリー強化学習 (RL) アルゴリズムを研究するための、第一原理の解釈可能性、一般化可能性、およびメモリのベンチマークを確立します。
具体的には、「Sushi Go Party!」と呼ばれるクローズド ドラフト ゲームの人気シリーズで、最先端のパフォーマンスを実現しています。
私たちは、訓練された RL エージェントの戦略を解釈するための決定ルールを適合させ、これらをさまざまなタイプの人間プレーヤーのランキングの好みと比較し、この環境における RL エージェントの異なるパフォーマンスのわかりやすい説明を見つけます。
寿司ゴーパーティーとしても!
は、プレイ中のカードのセットに基づいて、密接に関連したゲームのセットとして表現できます。さまざまなカードのセットでトレーニングされた RL モデルの一般化可能性を定量化し、パフォーマンスと、トレーニングと評価のゲーム構成間の設定距離の間の重要な傾向を確立します。

クローズド ドラフティング ゲームで他のプレイヤーの手の明示的に計算可能な記憶を使用して、RL モデルの記憶学習能力の尺度を作成します。

要約(オリジナル)

Closed drafting or ‘pick and pass’ is a popular game mechanic where each round players select a card or other playable element from their hand and pass the rest to the next player. In this paper, we establish first-principle interpretability, generalizability, and memory benchmarks for studying model-free reinforcement learning (RL) algorithms playing closed drafting games. Specifically in a popular family of closed drafting games called ‘Sushi Go Party!’, in which we achieve state-of-the-art performance. We fit decision rules to interpret the strategy of trained RL agents and compare these to the ranking preferences of different types of human players, finding easily understandable explanations of the disparate performance of RL agents in this environment. As Sushi Go Party! can be expressed as a set of closely-related games based on the set of cards in play, we quantify the generalizability of RL models trained on various sets of cards, establishing key trends between performance and the set distance between the train and evaluation game configurations. Using the explicitly calculable memory of other player’s hands in closed drafting games, we create measures of the ability of RL models to learn memory.

arxiv情報

著者 Ryan Rezai,Jason Wang
発行日 2023-11-08 17:56:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク