要約
大規模な言語モデル(LLM)は、さまざまなベンチマークで印象的なパフォーマンスを示していますが、意図的な推論に従事する能力は疑わしいままです。
NYT接続は、New York Times Connectionsゲームから派生した358の単語分類パズルのコレクションです。
このベンチマークは、迅速で直感的な「システム1」の思考を罰し、基本的な推論スキルを分離するように設計されています。
最近の6つのLLM、シンプルな機械学習ヒューリスティック、および3つの構成にわたる人間を評価しました。単一のアトリック、ヒントのない複数の試み、およびコンテキストヒントを使用した複数の試みです。
私たちの調査結果は、重大なパフォーマンスのギャップを明らかにしています。GPT-4のような最高のパフォーマンスのLLMでさえ、人間のパフォーマンスを30%近く下回っています。
特に、チェーンと自己整合性などの高度なプロンプト技術は、タスクの難易度が増加するにつれてリターンが減少することを示しています。
NYT接続は、言語の分離、直感的なショートカットに対する抵抗、およびデータの漏れを緩和するための定期的な更新を独自に組み合わせて、LLMの推論機能を評価するための新しいツールを提供します。
要約(オリジナル)
Large Language Models (LLMs) have shown impressive performance on various benchmarks, yet their ability to engage in deliberate reasoning remains questionable. We present NYT-Connections, a collection of 358 simple word classification puzzles derived from the New York Times Connections game. This benchmark is designed to penalize quick, intuitive ‘System 1’ thinking, isolating fundamental reasoning skills. We evaluated six recent LLMs, a simple machine learning heuristic, and humans across three configurations: single-attempt, multiple attempts without hints, and multiple attempts with contextual hints. Our findings reveal a significant performance gap: even top-performing LLMs like GPT-4 fall short of human performance by nearly 30%. Notably, advanced prompting techniques such as Chain-of-Thought and Self-Consistency show diminishing returns as task difficulty increases. NYT-Connections uniquely combines linguistic isolation, resistance to intuitive shortcuts, and regular updates to mitigate data leakage, offering a novel tool for assessing LLM reasoning capabilities.
arxiv情報
著者 | Angel Yahir Loredo Lopez,Tyler McDonald,Ali Emami |
発行日 | 2025-02-12 14:03:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google