Is That Your Final Answer? Test-Time Scaling Improves Selective Question Answering

要約

大規模な言語モデルのテスト時間計算をスケーリングすることで、ベンチマークの推論に関する印象的なパフォーマンスが実証されています。
ただし、テスト時間スケーリングの既存の評価により、推論システムは常に提供される質問に答えを与えるべきであるという強い仮定が得られます。
これは、モデルがその答えに自信を持っているかどうか、および常に応答を提供することが適切かどうかについての懸念を見落としています。
これらの懸念に対処するために、モデル応答のしきい値の推論中に信頼スコアを抽出します。
推論時間に計算予算を増やすことは、モデルがより多くの質問に正しく答えるのに役立つだけでなく、正しい応答に対する信頼を高めることができることがわかります。
次に、非ゼロレベルの応答リスクのある設定を考慮して、評価中にゼロリスク応答の現在のパラダイムを拡張し、これらの設定に基づく評価を報告するためのレシピを提案します。

要約(オリジナル)

Scaling the test-time compute of large language models has demonstrated impressive performance on reasoning benchmarks. However, existing evaluations of test-time scaling make the strong assumption that a reasoning system should always give an answer to any question provided. This overlooks concerns about whether a model is confident in its answer, and whether it is appropriate to always provide a response. To address these concerns, we extract confidence scores during reasoning for thresholding model responses. We find that increasing compute budget at inference time not only helps models answer more questions correctly, but also increases confidence in correct responses. We then extend the current paradigm of zero-risk responses during evaluation by considering settings with non-zero levels of response risk, and suggest a recipe for reporting evaluations under these settings.

arxiv情報

著者 William Jurayj,Jeffrey Cheng,Benjamin Van Durme
発行日 2025-02-19 18:58:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク