Softmax Probabilities (Mostly) Predict Large Language Model Correctness on Multiple-Choice Q&A

要約

大規模言語モデル (LLM) は多くのタスクで優れたパフォーマンスを発揮しますが、過信は依然として問題です。
私たちは、多肢選択式の Q&A タスクでは、誤った回答は正しい回答と比較して最大ソフトマックス確率 (MSP) が小さくなるという仮説を立てました。
この仮説を 10 個のオープンソース LLM と 5 つのデータセットで包括的に評価し、元の Q&A タスクで良好に機能するモデルの中から仮説の強力な証拠を見つけました。
最高の Q&A パフォーマンスを持つ 6 つの LLM では、MSP から導出された AUROC は、59/60 インスタンスで p < 10^{-4} でランダムな偶然よりも優れていました。 これら 6 つの LLM のうち、平均 AUROC は 60% ~ 69% の範囲でした。 これらの発見を活用して、棄権オプションを備えた多肢選択 Q&A タスクを提案し、初期モデル応答の MSP に基づいて選択的に棄権することでパフォーマンスが向上できることを示します。 また、ソフトマックス確率の代わりにソフトマックス以前のロジットを使用して同じ実験を実行し、同様の (ただし同一ではない) 結果が得られました。

要約(オリジナル)

Although large language models (LLMs) perform impressively on many tasks, overconfidence remains a problem. We hypothesized that on multiple-choice Q&A tasks, wrong answers would be associated with smaller maximum softmax probabilities (MSPs) compared to correct answers. We comprehensively evaluate this hypothesis on ten open-source LLMs and five datasets, and find strong evidence for our hypothesis among models which perform well on the original Q&A task. For the six LLMs with the best Q&A performance, the AUROC derived from the MSP was better than random chance with p < 10^{-4} in 59/60 instances. Among those six LLMs, the average AUROC ranged from 60% to 69%. Leveraging these findings, we propose a multiple-choice Q&A task with an option to abstain and show that performance can be improved by selectively abstaining based on the MSP of the initial model response. We also run the same experiments with pre-softmax logits instead of softmax probabilities and find similar (but not identical) results.

arxiv情報

著者 Benjamin Plaut,Khanh Nguyen,Tu Trinh
発行日 2024-02-20 18:24:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク