要約
Chessのようなゲームでは、戦略は異なる段階で劇的に進化します – オープニング、ミドルゲーム、およびエンドゲームは、それぞれの推論と意思決定の異なる形式の形態を要求します。
しかし、多くの最新のチェスエンジンは、単一のニューラルネットワークに依存してゲーム全体を均一に再生し、専門化する機会が欠けていることがよくあります。
この作業では、M2CTSを紹介します。M2CTは、専門家の混合物とモンテカルロツリー検索を組み合わせて、ゲームフェーズに基づいて戦略を動的に適応させるモジュラーフレームワークを紹介します。
ニューラルネットワークをトレーニングするための3つの異なる方法、分離学習、段階的学習、加重学習の3つの方法を探ります。
各フェーズでトレーニングされた専門のニューラルネットワークを通じて決定をルーティングすることにより、M2CTSは計算効率と再生強度の両方を改善します。
チェスの実験では、M2CTSは標準のシングルモデルベースラインよりも最大+122 ELOを達成し、Pommermanなどのマルチエージェントドメインに有望な一般化を示しています。
これらの結果は、モジュール式の位相認識システムがゲームの構造化された性質とより適合し、問題を多くの小さなユニットに分割する際に、人間のような行動に近づく方法を強調しています。
要約(オリジナル)
In games like chess, strategy evolves dramatically across distinct phases – the opening, middlegame, and endgame each demand different forms of reasoning and decision-making. Yet, many modern chess engines rely on a single neural network to play the entire game uniformly, often missing opportunities to specialize. In this work, we introduce M2CTS, a modular framework that combines Mixture of Experts with Monte Carlo Tree Search to adapt strategy dynamically based on game phase. We explore three different methods for training the neural networks: Separated Learning, Staged Learning, and Weighted Learning. By routing decisions through specialized neural networks trained for each phase, M2CTS improves both computational efficiency and playing strength. In experiments on chess, M2CTS achieves up to +122 Elo over standard single-model baselines and shows promising generalization to multi-agent domains such as Pommerman. These results highlight how modular, phase-aware systems can better align with the structured nature of games and move us closer to human-like behavior in dividing a problem into many smaller units.
arxiv情報
著者 | Felix Helfenstein,Johannes Czech,Jannis Blüml,Max Eisel,Kristian Kersting |
発行日 | 2025-06-17 15:05:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google