要約
大規模な言語モデル(LLM)が日常ドメインとハイステークスの両方のドメインの両方で確実に展開されるため、いつ回答しないかを知ることは、正しく答えることと同様に重要です。
実世界のユーザークエリは、不足、不適切、または根本的に答えられないため、不確実性について推論し、選択的に棄権するためにLLMを必要とします。
ただし、現代のLLMの体系的な評価フレームワークなしでは、棄権は依然として容認されていません。
この作業では、未知の回答のある質問、虚偽の前提、主観的解釈、時代遅れの情報を含む、20の多様なデータセットにわたって棄権を全体的に評価するための大規模なベンチマークであるabstentionbenchを紹介します。
20のフロンティアLLMSを評価すると、棄権が未解決の問題であり、スケーリングモデルがほとんど役に立たない問題が明らかになります。
最近の理由LLMは、複雑な問題解決で印象的な結果を示していますが、驚くべきことに、推論モデルが明示的に訓練されている数学と科学のドメインであっても、微調整が棄権(平均して24ドル\%$)が劣化することがわかります。
慎重に作成されたシステムプロンプトは、実際には棄権を後押しする可能性がありますが、モデルの不確実性について推論することができないことを解決しないことがわかります。
abstentionbenchをリリースして、LLMの信頼性の進歩に関する研究を促進します。
要約(オリジナル)
For Large Language Models (LLMs) to be reliably deployed in both everyday and high-stakes domains, knowing when not to answer is equally critical as answering correctly. Real-world user queries, which can be underspecified, ill-posed, or fundamentally unanswerable, require LLMs to reason about uncertainty and selectively abstain — i.e., refuse to answer definitively. However, abstention remains understudied, without a systematic evaluation framework for modern LLMs. In this work, we introduce AbstentionBench, a large-scale benchmark for holistically evaluating abstention across 20 diverse datasets, including questions with unknown answers, underspecification, false premises, subjective interpretations, and outdated information. Evaluating 20 frontier LLMs reveals abstention is an unsolved problem, and one where scaling models is of little use. While recent reasoning LLMs have shown impressive results in complex problem solving, surprisingly, we find that reasoning fine-tuning degrades abstention (by $24\%$ on average), even for math and science domains on which reasoning models are explicitly trained. We find that while a carefully crafted system prompt can boost abstention in practice, it does not resolve models’ fundamental inability to reason about uncertainty. We release AbstentionBench to foster research into advancing LLM reliability.
arxiv情報
著者 | Polina Kirichenko,Mark Ibrahim,Kamalika Chaudhuri,Samuel J. Bell |
発行日 | 2025-06-10 17:57:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google