要約
大規模な言語モデルは、多くの自然言語理解タスクで驚くべき少数ショットのパフォーマンスを実証しました。
複雑で戦略的なシナリオで大規模な言語モデルを使用するデモンストレーションはいくつか行われていますが、ゲームで見られるさまざまなタイプの推論にわたってエージェントのパフォーマンスを評価するための包括的なフレームワークが不足しています。
このギャップに対処するために、LLM エージェントの戦略的推論能力を評価するためのクロスドメイン ベンチマークである GameBench を導入します。
私たちは 9 つの異なるゲーム環境に焦点を当て、それぞれが戦略ゲームで特定される重要な推論スキルの少なくとも 1 つの軸をカバーし、戦略の説明がモデルの事前トレーニング コーパスの重要な部分を形成する可能性が低いゲームを選択します。
私たちの評価では、基本形式の GPT-3 と GPT-4 に加えて、戦略的推論能力を強化するために設計された 2 つの足場フレームワーク、思考連鎖 (CoT) プロンプティングとプランニングによる推論 (RAP) を使用します。
私たちの結果は、テストされたモデルのどれも人間のパフォーマンスに匹敵するものはなく、最悪の場合でも GPT-4 のパフォーマンスはランダム アクションよりも劣ることを示しています。
CoT と RAP は両方ともスコアを向上させますが、人間のレベルには匹敵しません。
要約(オリジナル)
Large language models have demonstrated remarkable few-shot performance on many natural language understanding tasks. Despite several demonstrations of using large language models in complex, strategic scenarios, there lacks a comprehensive framework for evaluating agents’ performance across various types of reasoning found in games. To address this gap, we introduce GameBench, a cross-domain benchmark for evaluating strategic reasoning abilities of LLM agents. We focus on 9 different game environments, where each covers at least one axis of key reasoning skill identified in strategy games, and select games for which strategy explanations are unlikely to form a significant portion of models’ pretraining corpuses. Our evaluations use GPT-3 and GPT-4 in their base form along with two scaffolding frameworks designed to enhance strategic reasoning ability: Chain-of-Thought (CoT) prompting and Reasoning Via Planning (RAP). Our results show that none of the tested models match human performance, and at worst GPT-4 performs worse than random action. CoT and RAP both improve scores but not comparable to human levels.
arxiv情報
著者 | Anthony Costarelli,Mat Allen,Roman Hauksson,Grace Sodunke,Suhas Hariharan,Carlson Cheng,Wenjie Li,Joshua Clymer,Arjun Yadav |
発行日 | 2024-07-22 14:32:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google