要約
最近、大量の作業により、数学やロジックなどのベンチマークの推論に関する大規模な言語モデル(LLMS ‘)のパフォーマンスの改善に焦点を当てています。
しかし、過去の仕事は、タスクが明確に定義されていると主に想定しています。
現実の世界では、LLMSへの質問はしばしば不足しており、欠落している情報を取得することによってのみ解決できます。
これは、変数割り当てが欠落している制約満足度の問題(CSP)として正式化します。
必要な変数割り当てのみが欠落しているこの形式主義の特殊なケースを使用して、各問題の難易度の軸を尋ねて定量化するために必要な最小限の質問を特定するLLMの能力を厳密に評価できます。
We present QuestBench, a set of underspecified reasoning tasks solvable by asking at most one question, which includes: (1) Logic-Q: Logical reasoning tasks with one missing proposition, (2) Planning-Q: PDDL planning problems with initial states that are partially-observed, (3) GSM-Q: Human-annotated grade school math problems with one missing variable assignment, and (4) GSME-Q: a version of
GSM-Q単語の問題がヒトのアノテーターによって方程式に変換される場合。
LLMは、オプションのリストから正しい明確化の質問を選択することを任されています。
最先端のモデルはGSM-QおよびGSME-Qで優れていますが、それらの精度はLogic-QおよびPlanning-Qでわずか40〜50%です。
分析は、適切に指定された推論問題を解決する能力は、ベンチマークで成功するのに十分ではないかもしれないことを示しています。モデルは、問題の完全に指定されたバージョンを解決できる場合でも、正しい質問を識別するのが困難です。
さらに、Planning-Qドメインでは、LLMは「わからない」と予測するオプションを明示的に提示したとしても、ヘッジしない傾向があります。これは、モデルの情報収集機能をより深く調査する必要性を強調しています。
要約(オリジナル)
Recently, a large amount of work has focused on improving large language models’ (LLMs’) performance on reasoning benchmarks such as math and logic. However, past work has largely assumed that tasks are well-defined. In the real world, queries to LLMs are often underspecified, only solvable through acquiring missing information. We formalize this as a constraint satisfaction problem (CSP) with missing variable assignments. Using a special case of this formalism where only one necessary variable assignment is missing, we can rigorously evaluate an LLM’s ability to identify the minimal necessary question to ask and quantify axes of difficulty levels for each problem. We present QuestBench, a set of underspecified reasoning tasks solvable by asking at most one question, which includes: (1) Logic-Q: Logical reasoning tasks with one missing proposition, (2) Planning-Q: PDDL planning problems with initial states that are partially-observed, (3) GSM-Q: Human-annotated grade school math problems with one missing variable assignment, and (4) GSME-Q: a version of GSM-Q where word problems are translated into equations by human annotators. The LLM is tasked with selecting the correct clarification question(s) from a list of options. While state-of-the-art models excel at GSM-Q and GSME-Q, their accuracy is only 40-50% on Logic-Q and Planning-Q. Analysis demonstrates that the ability to solve well-specified reasoning problems may not be sufficient for success on our benchmark: models have difficulty identifying the right question to ask, even when they can solve the fully specified version of the problem. Furthermore, in the Planning-Q domain, LLMs tend not to hedge, even when explicitly presented with the option to predict “not sure.” This highlights the need for deeper investigation into models’ information acquisition capabilities.
arxiv情報
著者 | Belinda Z. Li,Been Kim,Zi Wang |
発行日 | 2025-03-28 17:58:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google