要約
RLHFのような技術で最適化された大規模な言語モデルは、有用で無害であるという点で良いアライメントを達成している。しかし、アライメント後、これらの言語モデルはしばしば過信を示し、表現された確信度がその正答率と正確に較正されない。本論文では、言語モデルの信頼度を、質問に対する「不確かさ」と、言語モデルによって生成された答えに対する「忠実度」に分解する。そして、言語モデルの信頼度を推定するプラグアンドプレイ手法を提案する。我々の手法は、4つのMCQAデータセットに対して6つのRLHF-LMを用いて実験を行い、良好な適合性能を示した。さらに、モデルの校正を評価するためにIPRとCEという2つの新しいメトリクスを提案し、୧⃛(๑⃙⃘⁼̴̀꒳⁼̴́๑⃙⃘)୨⃛に関する詳細な議論を行った。我々の手法は強力なベースラインとして機能する可能性があり、この研究がモデルの信頼度校正に何らかの洞察を与えることを期待している。
要約(オリジナル)
Large language models optimized with techniques like RLHF have achieved good alignment in being helpful and harmless. However, post-alignment, these language models often exhibit overconfidence, where the expressed confidence does not accurately calibrate with their correctness rate. In this paper, we decompose the language model confidence into the \textit{Uncertainty} about the question and the \textit{Fidelity} to the answer generated by language models. Then, we propose a plug-and-play method to estimate the confidence of language models. Our method has shown good calibration performance by conducting experiments with 6 RLHF-LMs on four MCQA datasets. Moreover, we propose two novel metrics, IPR and CE, to evaluate the calibration of the model, and we have conducted a detailed discussion on \textit{Truly Well-Calibrated Confidence}. Our method could serve as a strong baseline, and we hope that this work will provide some insights into the model confidence calibration.
arxiv情報
| 著者 | Mozhi Zhang,Mianqiu Huang,Rundong Shi,Linsen Guo,Chong Peng,Peng Yan,Yaqian Zhou,Xipeng Qiu |
| 発行日 | 2024-04-03 11:36:12+00:00 |
| arxivサイト | arxiv_id(pdf) |