Rewarding Doubt: A Reinforcement Learning Approach to Confidence Calibration of Large Language Models

要約

大規模な言語モデル(LLMS)の安全で信頼できる使用には、回答に対する信頼性の正確な表現が必要です。
LLMキャリブレーションのための新しい強化学習(RL)アプローチを導入し、LLMを微調整して、事実上の質問に対する回答に校正された信頼性の推定を引き出します。
問題を賭けゲームとしてモデル化し、モデルがすべての回答と一緒に信頼性スコアを予測し、強度を超えていっぱいと不足の両方を罰する報酬関数を設計します。
私たちの報酬設計の下で、最適なポリシーが完全に較正された信頼性の推定につながることを証明します。
私たちの実験は、再訓練をせずに新しいタスクの信頼のキャリブレーションと一般化が大幅に改善されたことを示しており、私たちのアプローチが一般的な自信の認識を教えていることを示しています。
このアプローチにより、本質的に調整されたLLMのトレーニングが可能になります。

要約(オリジナル)

A safe and trustworthy use of Large Language Models (LLMs) requires an accurate expression of confidence in their answers. We introduce a novel Reinforcement Learning (RL) approach for LLM calibration that fine-tunes LLMs to elicit calibrated confidence estimations in their answers to factual questions. We model the problem as a betting game where the model predicts a confidence score together with every answer, and design a reward function that penalizes both over and under-confidence. We prove that under our reward design an optimal policy would result in a perfectly calibrated confidence estimation. Our experiments demonstrate significantly improved confidence calibration and generalization to new tasks without re-training, indicating that our approach teaches a general confidence awareness. This approach enables the training of inherently calibrated LLMs.

arxiv情報

著者 Paul Stangel,David Bani-Harouni,Chantal Pellegrini,Ege Özsoy,Kamilia Zaripova,Matthias Keicher,Nassir Navab
発行日 2025-03-04 13:48:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク