要約
言語モデル (LM) を調整すると、生成の信頼度が実際の正解の可能性と一致するため、ユーザーに LM の信頼性を知らせ、幻覚コンテンツを軽減できます。
ただし、自己無撞着ベースやロジットベースのアプローチなどの従来のキャリブレーション方法は、推論時間の効率が制限されているか、情報信号を提供するには不十分です。
さらに、信頼性の低い応答を単純に除外すると、応答が正しい場合の LM の有用性が低下します。
したがって、校正技術を効果的に使用して LM の事実性を高めることは、未解決の課題のままです。
この論文では、最初にアクティベーションベースのキャリブレーション手法である ActCab を提案します。これは、知識の表現をより適切に捕捉できる LM の最終層アクティベーションの上に線形レイヤーをトレーニングします。
ActCab の上に構築され、LM から高い信頼性で真実の回答を引き出すための信頼度に基づくデコード戦略である CoDec をさらに提案します。
ActCab は、5 つの一般的な QA ベンチマークで評価することにより、平均予想キャリブレーション エラー (ECE) スコアを最大 39% 削減するなど、競合するすべてのベースラインよりも優れたキャリブレーション パフォーマンスを実現します。
CoDec に関するさらなる実験では、TruthfulQA などの困難な QA データセットに関するいくつかの LM の事実性が一貫して向上していることが示され、事実性を高める上での信頼シグナルの価値が強調されています。
要約(オリジナル)
Calibrating language models (LMs) aligns their generation confidence with the actual likelihood of answer correctness, which can inform users about LMs’ reliability and mitigate hallucinated content. However, prior calibration methods, such as self-consistency-based and logit-based approaches, are either limited in inference-time efficiency or fall short of providing informative signals. Moreover, simply filtering out low-confidence responses reduces the LM’s helpfulness when the answers are correct. Therefore, effectively using calibration techniques to enhance an LM’s factuality remains an unsolved challenge. In this paper, we first propose an activation-based calibration method, ActCab, which trains a linear layer on top of the LM’s last-layer activations that can better capture the representations of knowledge. Built on top of ActCab, we further propose CoDec, a confidence-guided decoding strategy to elicit truthful answers with high confidence from LMs. By evaluating on five popular QA benchmarks, ActCab achieves superior calibration performance than all competitive baselines, e.g., by reducing the average expected calibration error (ECE) score by up to 39%. Further experiments on CoDec show consistent improvements in several LMs’ factuality on challenging QA datasets, such as TruthfulQA, highlighting the value of confidence signals in enhancing factuality.
arxiv情報
著者 | Xin Liu,Farima Fatahi Bayat,Lu Wang |
発行日 | 2024-11-12 16:47:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google