要約
大規模な言語モデル(LLM)は急速な進歩を目撃し、驚くべき能力を示しています。
ただし、顕著な脆弱性は続きます。LLMは、多くの場合、欠陥または矛盾した前提を批判的に受け入れ、非効率的な推論と信頼できない出力につながります。
これは、LLMSの\ textBf {Premise Critique能力}を所有することの重要性を強調し、入力前の施設でエラーを積極的に特定して明確にする能力として定義されます。
ほとんどの既存の研究は、理想的な設定におけるLLMの推論能力を評価し、欠陥のある施設に直面したときの脆弱性をほとんど無視しています。
したがって、3つの難易度レベルに4つのエラータイプを組み込み、多面的な評価メトリックを組み合わせた\ textBf {Premise Critique Bench(PCBench)}を導入します。
15の代表LLMの体系的な評価を実施しました。
私たちの調査結果は、(1)ほとんどのモデルは、限られた自律的な批評を持つエラーを検出するための明示的なプロンプトに大きく依存しています。
(2)前提批評能力は、質問の難易度とエラーの種類に依存し、直接的な矛盾は複雑なエラーや手続き上のエラーよりも検出しやすいです。
(3)推論能力は、前提批評能力と一貫して相関していません。
(4)欠陥のある施設は、推論モデルで考え直され、競合を解決しようとする繰り返しの試みのために応答を著しく延長するトリガーを引き起こします。
これらの洞察は、LLMSの入力妥当性の積極的な評価を強化する緊急の必要性を強調しており、信頼できる人間中心のシステムを開発するための基礎能力として前提批判を配置しています。
このコードは、https://github.com/mlgroupjlu/premise_critiqueで入手できます。
要約(オリジナル)
Large language models (LLMs) have witnessed rapid advancements, demonstrating remarkable capabilities. However, a notable vulnerability persists: LLMs often uncritically accept flawed or contradictory premises, leading to inefficient reasoning and unreliable outputs. This emphasizes the significance of possessing the \textbf{Premise Critique Ability} for LLMs, defined as the capacity to proactively identify and articulate errors in input premises. Most existing studies assess LLMs’ reasoning ability in ideal settings, largely ignoring their vulnerabilities when faced with flawed premises. Thus, we introduce the \textbf{Premise Critique Bench (PCBench)}, designed by incorporating four error types across three difficulty levels, paired with multi-faceted evaluation metrics. We conducted systematic evaluations of 15 representative LLMs. Our findings reveal: (1) Most models rely heavily on explicit prompts to detect errors, with limited autonomous critique; (2) Premise critique ability depends on question difficulty and error type, with direct contradictions being easier to detect than complex or procedural errors; (3) Reasoning ability does not consistently correlate with the premise critique ability; (4) Flawed premises trigger overthinking in reasoning models, markedly lengthening responses due to repeated attempts at resolving conflicts. These insights underscore the urgent need to enhance LLMs’ proactive evaluation of input validity, positioning premise critique as a foundational capability for developing reliable, human-centric systems. The code is available at https://github.com/MLGroupJLU/Premise_Critique.
arxiv情報
著者 | Jinzhe Li,Gengxu Li,Yi Chang,Yuan Wu |
発行日 | 2025-05-29 17:49:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google