Explore the Reasoning Capability of LLMs in the Chess Testbed

要約

推論は、人間の知性の中心的な能力です。
近年、大規模なデータセットの出現により、推論を含む新しい機能が備わっています。
ただし、これらのモデルは、チェスをするなどの長期的で複雑な推論タスクに依然として苦労しています。
専門家のチェスプレーヤーは、長期的な戦略的遊びと短期戦術的な遊びと言語の説明を組み合わせた二重アプローチを採用しているという観察に基づいて、注釈付き戦略と戦術を統合することにより、チェスにおける大規模な言語モデルの推論能力を改善することを提案します。
具体的には、MATEという名前のデータセットを収集します。これは、戦略と戦術のためにチェスの専門家から注釈が付けられた候補者の動きを持つ100万のチェスポジションで構成されるものです。
Llama-3-8Bモデルを微調整し、より良いチェスの動きを選択するタスクで、最先端の商業言語モデルと比較します。
私たちの実験は、モデルがGPT、Claude、およびGeminiモデルよりも優れたパフォーマンスを示していることを示しています。
言語の説明は、大規模な言語モデルの推論能力を高めることができることがわかります。

要約(オリジナル)

Reasoning is a central capability of human intelligence. In recent years, with the advent of large-scale datasets, pretrained large language models have emerged with new capabilities, including reasoning. However, these models still struggle with long-term, complex reasoning tasks, such as playing chess. Based on the observation that expert chess players employ a dual approach combining long-term strategic play with short-term tactical play along with language explanation, we propose improving the reasoning capability of large language models in chess by integrating annotated strategy and tactic. Specifically, we collect a dataset named MATE, which consists of 1 million chess positions with candidate moves annotated by chess experts for strategy and tactics. We finetune the LLaMA-3-8B model and compare it against state-of-the-art commercial language models in the task of selecting better chess moves. Our experiments show that our models perform better than GPT, Claude, and Gemini models. We find that language explanations can enhance the reasoning capability of large language models.

arxiv情報

著者 Shu Wang,Lei Ji,Renxi Wang,Wenxiao Zhao,Haokun Liu,Yifan Hou,Ying Nian Wu
発行日 2025-02-28 11:58:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク