要約
大規模な言語モデル(LLM)は、多くのドメインで変換されています。
ただし、幻覚 – 自信を持って誤った情報を出力する – は、LLMの主要な課題の1つであり続けています。
これは、LLMSの不確実性を正確に評価および定量化する方法の問題を提起します。
従来のモデルに関する広範な文献では、不確実性を測定するための不確実性の定量化(UQ)を調査し、不確実性と精度の不整合に対処するためのキャリブレーション手法を採用しました。
これらの方法のいくつかはLLMに適合していますが、文献にはその有効性の詳細な分析が欠けており、既存のソリューション間の洞察に富んだ比較を可能にする包括的なベンチマークを提供しません。
この作業では、LLMSのUQとキャリブレーションに関する代表的な以前の作業の体系的な調査を介してこのギャップを埋め、厳格なベンチマークを導入します。
広く使用されている2つの信頼性データセットを使用して、6つの関連する方法を経験的に評価します。これは、レビューの重要な調査結果を正当化します。
最後に、将来の主要な方向性の見通しを提供し、オープンな課題の概要を説明します。
私たちの知る限り、この調査は、LLMSのキャリブレーション方法と関連するメトリックをレビューした最初の専用研究です。
要約(オリジナル)
Large Language Models (LLMs) have been transformative across many domains. However, hallucination — confidently outputting incorrect information — remains one of the leading challenges for LLMs. This raises the question of how to accurately assess and quantify the uncertainty of LLMs. Extensive literature on traditional models has explored Uncertainty Quantification (UQ) to measure uncertainty and employed calibration techniques to address the misalignment between uncertainty and accuracy. While some of these methods have been adapted for LLMs, the literature lacks an in-depth analysis of their effectiveness and does not offer a comprehensive benchmark to enable insightful comparison among existing solutions. In this work, we fill this gap via a systematic survey of representative prior works on UQ and calibration for LLMs and introduce a rigorous benchmark. Using two widely used reliability datasets, we empirically evaluate six related methods, which justify the significant findings of our review. Finally, we provide outlooks for key future directions and outline open challenges. To the best of our knowledge, this survey is the first dedicated study to review the calibration methods and relevant metrics for LLMs.
arxiv情報
著者 | Toghrul Abbasli,Kentaroh Toyoda,Yuan Wang,Leon Witt,Muhammad Asif Ali,Yukai Miao,Dan Li,Qingsong Wei |
発行日 | 2025-04-25 13:34:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google