要約
大規模言語モデル (LLM) は、さまざまなタスクにわたって顕著な機能を実証し、複雑な問題解決能力を示しています。
複雑なルールを理解して実行することは、複数ステップの計画とともに、論理的推論の基礎であり、実際の LLM エージェントと意思決定システムにとって重要です。
ただし、LLM を効果的なルールベースの実行者および計画者として評価することは、まだ十分に検討されていません。
このペーパーでは、LLM の包括的なルールの理解、実行、計画能力を評価するために設計された新しいベンチマークである LogicGame を紹介します。
従来のベンチマークとは異なり、LogicGame は初期状態の一連のルールを含む多様なゲームを提供し、モデルが問題を解決するために事前定義された規制を理解し、適用する必要があります。
特定の結果を達成するためにモデルが操作を実行または計画するシミュレーション シナリオを作成します。
これらのゲーム シナリオは、事前に定義されたルールのみに依存することで、論理的推論と単なる知識を区別するように特別に設計されています。
この分離により、ルールベースの推論能力の純粋な評価が可能になります。
評価では、最終結果だけでなく中間ステップも考慮され、モデルのパフォーマンスの包括的な評価が提供されます。
さらに、これらの中間ステップは決定論的であり、自動的に検証できます。
LogicGame は、ルールの理解と複数ステップの実行に関するモデルのパフォーマンスを正確に評価するために、単純なルールの適用から複雑な推論チェーンまで、さまざまな難易度のゲーム シナリオを定義します。
LogicGame を利用して、さまざまな LLM をテストし、ルールベースの論理的推論能力における顕著な欠点を特定します。
要約(オリジナル)
Large Language Models (LLMs) have demonstrated notable capabilities across various tasks, showcasing complex problem-solving abilities. Understanding and executing complex rules, along with multi-step planning, are fundamental to logical reasoning and critical for practical LLM agents and decision-making systems. However, evaluating LLMs as effective rule-based executors and planners remains underexplored. In this paper, we introduce LogicGame, a novel benchmark designed to evaluate the comprehensive rule understanding, execution, and planning capabilities of LLMs. Unlike traditional benchmarks, LogicGame provides diverse games that contain a series of rules with an initial state, requiring models to comprehend and apply predefined regulations to solve problems. We create simulated scenarios in which models execute or plan operations to achieve specific outcomes. These game scenarios are specifically designed to distinguish logical reasoning from mere knowledge by relying exclusively on predefined rules. This separation allows for a pure assessment of rule-based reasoning capabilities. The evaluation considers not only final outcomes but also intermediate steps, providing a comprehensive assessment of model performance. Moreover, these intermediate steps are deterministic and can be automatically verified. LogicGame defines game scenarios with varying difficulty levels, from simple rule applications to complex reasoning chains, in order to offer a precise evaluation of model performance on rule understanding and multi-step execution. Utilizing LogicGame, we test various LLMs and identify notable shortcomings in their rule-based logical reasoning abilities.
arxiv情報
著者 | Jiayi Gui,Yiming Liu,Jiale Cheng,Xiaotao Gu,Xiao Liu,Hongning Wang,Yuxiao Dong,Jie Tang,Minlie Huang |
発行日 | 2024-09-05 10:30:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google