要約
大規模言語モデル (LLM) の予測の信頼レベルを正確に測定することは、LLM を信頼性の高いアプリケーションに適用するために極めて重要です。
ただし、LLM は本質的に校正されていないことが多く、その独自の性質と大規模なスケールにより、従来の校正技術が適用できません。
この研究では、3 つの一貫性の尺度を介して、ランダムにサンプリングされた複数のモデル世代の分布から信頼性を導き出す可能性を探ります。
私たちは、9 つの推論データセットに対して、さまざまなオープン ソース モデルとクローズド ソース モデルにわたって広範な評価を実行します。
結果は、一貫性ベースのキャリブレーション手法が既存の事後アプローチよりも優れていることを示しています。
一方、中間の説明、モデルのスケーリング、より大きなサンプルサイズなどの要因によりキャリブレーションが強化される一方、命令チューニングによりキャリブレーションがより困難になることがわかりました。
さらに、一貫性から得られる信頼スコアは、モデルのパフォーマンスを向上させる可能性があります。
最後に、さまざまな LM の特性に合わせた、キャリブレーションに適した整合性メトリクスを選択するための実践的なガイダンスを提供します。
要約(オリジナル)
Accurately gauging the confidence level of Large Language Models’ (LLMs) predictions is pivotal for their reliable application. However, LLMs are often uncalibrated inherently and elude conventional calibration techniques due to their proprietary nature and massive scale. In this work, we explore the potential of deriving confidence from the distribution of multiple randomly sampled model generations, via three measures of consistency. We perform an extensive evaluation across various open and closed-source models on nine reasoning datasets. Results show that consistency-based calibration methods outperform existing post-hoc approaches. Meanwhile, we find that factors such as intermediate explanations, model scaling, and larger sample sizes enhance calibration, while instruction-tuning makes calibration more difficult. Moreover, confidence scores obtained from consistency have the potential to enhance model performance. Finally, we offer practical guidance on choosing suitable consistency metrics for calibration, tailored to the characteristics of various LMs.
arxiv情報
著者 | Qing Lyu,Kumar Shridhar,Chaitanya Malaviya,Li Zhang,Yanai Elazar,Niket Tandon,Marianna Apidianaki,Mrinmaya Sachan,Chris Callison-Burch |
発行日 | 2024-02-21 16:15:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google