要約
このペーパーでは、未結合のベストファーストミニバックスアルゴリズムの以前に未検証の4つの変更の最初の実験的評価を紹介します。
このアルゴリズムは、現在の部分的なゲームツリーに基づいて、最も有望なアクションシーケンスを繰り返し拡大することにより、ゲームツリーを調査します。
最初に、再配置テーブルの使用を評価します。このテーブルは、複製状態を統合することにより、ゲームツリーを指向性の非環式グラフに変換します。
第二に、Korf&Chickeringの元のアルゴリズムをCohen-Solalによって提案されたバリアントと比較します。これは、バックプロパゲーション戦略が異なります。安定した値が発生したときに停止する代わりに、値をルートまで更新します。
この変更により、値のつながりや転置テーブルが関係すると、パフォーマンスがわずかに向上します。
第三に、正確な端子評価関数を学習したヒューリスティック関数に置き換えることを評価します。
正確な評価がコストがかかる場合は有益ですが、この変更は安価な設定でのパフォーマンスを低下させます。
最後に、解決された勝利状態を優先し、解決された敗北状態を回避する完了手法の影響を調べます。
この手法もパフォーマンスを向上させます。
全体として、我々の調査結果は、ターゲットを絞った変更が、固定されていない最高の最終的なミニマックスの効率をどのように高めることができるかを強調しています。
要約(オリジナル)
This paper presents the first experimental evaluation of four previously untested modifications of Unbounded Best-First Minimax algorithm. This algorithm explores the game tree by iteratively expanding the most promising sequences of actions based on the current partial game tree. We first evaluate the use of transposition tables, which convert the game tree into a directed acyclic graph by merging duplicate states. Second, we compare the original algorithm by Korf & Chickering with the variant proposed by Cohen-Solal, which differs in its backpropagation strategy: instead of stopping when a stable value is encountered, it updates values up to the root. This change slightly improves performance when value ties or transposition tables are involved. Third, we assess replacing the exact terminal evaluation function with the learned heuristic function. While beneficial when exact evaluations are costly, this modification reduces performance in inexpensive settings. Finally, we examine the impact of the completion technique that prioritizes resolved winning states and avoids resolved losing states. This technique also improves performance. Overall, our findings highlight how targeted modifications can enhance the efficiency of Unbounded Best-First Minimax.
arxiv情報
著者 | Quentin Cohen-Solal,Tristan Cazenave |
発行日 | 2025-05-07 15:59:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google