要約
推論は、大規模な言語モデル(LLM)の基本的な能力であり、複雑な問題を理解、分析、解決できるようにします。
この論文では、パターン認識、空間認識、算数、および論理的推論の高度なスキルを必要とする厳しいテキストベースのゲームを通じてLLMを評価するために特別に作成された革新的なベンチマークであるTextGamesを紹介します。
分析は、単一ターンとマルチターンの両方の推論の両方でLLMSのパフォーマンスを調査し、フィードバックを活用して自己反省を通じてその後の回答を修正する能力を調査します。
私たちの調査結果は、LLMが最も簡単で中レベルの問題に対処するのに習熟度を示しているが、より困難なタスクで重要な課題に直面していることを明らかにしています。
対照的に、人間は十分な時間が与えられた場合、すべてのタスクを解くことができます。
さらに、LLMSは、自己反省を通じてマルチターン予測のパフォーマンスの向上を示しているが、それでも一貫して複雑なルールに従うことに苦労していることを観察しています。
さらに、推論のために最適化されたモデルは、次の命令に優先順位を付ける事前に訓練されたLLMを上回り、非常に複雑な問題に対処する際の推論スキルの重要な役割を強調しています。
要約(オリジナル)
Reasoning is a fundamental capability of large language models (LLMs), enabling them to comprehend, analyze, and solve complex problems. In this paper, we introduce TextGames, an innovative benchmark specifically crafted to assess LLMs through demanding text-based games that require advanced skills in pattern recognition, spatial awareness, arithmetic, and logical reasoning. Our analysis probes LLMs’ performance in both single-turn and multi-turn reasoning, and their abilities in leveraging feedback to correct subsequent answers through self-reflection. Our findings reveal that, although LLMs exhibit proficiency in addressing most easy and medium-level problems, they face significant challenges with more difficult tasks. In contrast, humans are capable of solving all tasks when given sufficient time. Moreover, we observe that LLMs show improved performance in multi-turn predictions through self-reflection, yet they still struggle with sequencing, counting, and following complex rules consistently. Additionally, models optimized for reasoning outperform pre-trained LLMs that prioritize instruction following, highlighting the crucial role of reasoning skills in addressing highly complex problems.
arxiv情報
著者 | Frederikus Hudi,Genta Indra Winata,Ruochen Zhang,Alham Fikri Aji |
発行日 | 2025-02-25 18:26:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google