Calibrating Long-form Generations from Large Language Models

要約

大規模言語モデル (LLM) の信頼性を高めるには、キャリブレーションが不可欠です。モ​​デルの評価された信頼スコアは、その応答が正しい実際の可能性と一致する必要があります。
ただし、現在の信頼性導出方法と校正メトリクスは、通常、応答の正しさの真/偽のバイナリ評価に依存しています。
このアプローチは、回答が部分的に正しい可能性がある長い形式の生成には適用されません。
このギャップに対処するために、LLM の応答の正確さとそれに関連する信頼レベルの両方がスコアの範囲にわたる分布として扱われる、統一されたキャリブレーション フレームワークを導入します。
このフレームワーク内で、LLM キャリブレーションを正確に評価するための 3 つの指標を開発し、さらに自己一貫性と自己評価に基づいた 2 つの信頼性導出方法を提案します。
長い形式の QA および要約タスクを含む私たちの実験では、モデルが大規模だからといって必ずしも良好なキャリブレーションが保証されるわけではないこと、キャリブレーションのパフォーマンスがメトリックに依存することが判明していること、および自己無撞着法がファクトイド データセットで優れていることが実証されました。
また、微調整、関連するソース文書の統合、温度のスケーリング、自己一貫性と自己評価の組み合わせなどの手法によって、キャリブレーションを強化できることもわかりました。
最後に、限られた API 予算で正確性を最適化するために、オープンソース モデルと ChatGPT を選択およびカスケードする、システムの実際的なアプリケーションを紹介します。
この研究は、LLM キャリブレーションの既存の概念に挑戦するだけでなく、長い形式の生成における信頼性を向上させるための実用的な方法論も提供します。

要約(オリジナル)

To enhance Large Language Models’ (LLMs) reliability, calibration is essential — the model’s assessed confidence scores should align with the actual likelihood of its responses being correct. However, current confidence elicitation methods and calibration metrics typically rely on a binary true/false assessment of response correctness. This approach does not apply to long-form generation, where an answer can be partially correct. Addressing this gap, we introduce a unified calibration framework, in which both the correctness of the LLMs’ responses and their associated confidence levels are treated as distributions across a range of scores. Within this framework, we develop three metrics to precisely evaluate LLM calibration and further propose two confidence elicitation methods based on self-consistency and self-evaluation. Our experiments, which include long-form QA and summarization tasks, demonstrate that larger models don’t necessarily guarantee better calibration, that calibration performance is found to be metric-dependent, and that self-consistency methods excel in factoid datasets. We also find that calibration can be enhanced through techniques such as fine-tuning, integrating relevant source documents, scaling the temperature, and combining self-consistency with self-evaluation. Lastly, we showcase a practical application of our system: selecting and cascading open-source models and ChatGPT to optimize correctness given a limited API budget. This research not only challenges existing notions of LLM calibration but also offers practical methodologies for improving trustworthiness in long-form generation.

arxiv情報

著者 Yukun Huang,Yixin Liu,Raghuveer Thirukovalluru,Arman Cohan,Bhuwan Dhingra
発行日 2024-02-09 17:00:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク