Large Language Models Must Be Taught to Know What They Don’t Know

要約

一か八かのアプリケーションで大規模言語モデル (LLM) を使用する場合、その予測をいつ信頼できるかを知る必要があります。
一部の研究では、高性能 LLM を促すだけで校正された不確実性を生み出すのに十分であると主張していますが、他の研究では法外に高価になる可能性のあるサンプリング方法を導入しています。
この研究では、最初に、プロンプトを単独で送信するだけでは良好なキャリブレーションを達成するには不十分であると主張し、次に、正解と不正解の小さなデータセットを微調整することで、適切な一般化と小さな計算オーバーヘッドで不確実性の推定値を作成できることを示します。
ベースライン手法を上回るパフォーマンスを発揮するには、1,000 のグレーディングされたサンプルで十分であること、および LoRA を使用する場合に大規模なオープンソース モデルで優れたパフォーマンスと扱いやすさを得るには、モデルの機能を使用したトレーニングが必要であることを示します。
また、信頼性の高い LLM 不確かさ推定を可能にするメカニズムも調査し、多くのモデルが汎用の不確かさ推定器として使用でき、それ自体の不確かさだけでなく他のモデルの不確かさにも適用できることがわかりました。
最後に、ユーザー調査を通じて、人間と AI の協調環境における LLM の人間の使用に不確実性の推定値が反映されることを示します。

要約(オリジナル)

When using large language models (LLMs) in high-stakes applications, we need to know when we can trust their predictions. Some works argue that prompting high-performance LLMs is sufficient to produce calibrated uncertainties, while others introduce sampling methods that can be prohibitively expensive. In this work, we first argue that prompting on its own is insufficient to achieve good calibration and then show that fine-tuning on a small dataset of correct and incorrect answers can create an uncertainty estimate with good generalization and small computational overhead. We show that a thousand graded examples are sufficient to outperform baseline methods and that training through the features of a model is necessary for good performance and tractable for large open-source models when using LoRA. We also investigate the mechanisms that enable reliable LLM uncertainty estimation, finding that many models can be used as general-purpose uncertainty estimators, applicable not just to their own uncertainties but also the uncertainty of other models. Lastly, we show that uncertainty estimates inform human use of LLMs in human-AI collaborative settings through a user study.

arxiv情報

著者 Sanyam Kapoor,Nate Gruver,Manley Roberts,Katherine Collins,Arka Pal,Umang Bhatt,Adrian Weller,Samuel Dooley,Micah Goldblum,Andrew Gordon Wilson
発行日 2024-06-12 16:41:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ML パーマリンク