A Study on the Calibration of In-context Learning

要約

正確な不確実性の定量化は、言語モデル (LM) を安全に展開するために不可欠であり、先行研究により、最新の LM のキャリブレーションの改善が実証されています。
私たちの研究は、カスタマイズされたプロンプトを通じて静的 LM を適応させる一般的な方法であるインコンテキスト学習 (ICL) に焦点を当て、広範囲の自然言語理解および推論タスクにわたるパフォーマンスとキャリブレーションのバランスを調べます。
包括的な実験を通じて、ICL の例の数が増加するにつれて、モデルはより良好なキャリブレーションを達成する前に最初にミスキャリブレーションの増加を示し、ローショット設定でミスキャリブレーションが発生する傾向があることを観察しました。
さらに、微調整や思考連鎖 (CoT) プロンプトなどのユーザビリティの向上を目的とした方法は、誤った調整や信頼性の低い自然言語説明につながる可能性があることがわかり、モデルが期待されるシナリオでは新しい方法が必要になる可能性があることが示唆されています。
信頼できるように。

要約(オリジナル)

Accurate uncertainty quantification is crucial for the safe deployment of language models (LMs), and prior research has demonstrated improvements in the calibration of modern LMs. Our study focuses on in-context learning (ICL), a prevalent method for adapting static LMs through tailored prompts, and examines the balance between performance and calibration across a broad spectrum of natural language understanding and reasoning tasks. Through comprehensive experiments, we observe that, with an increasing number of ICL examples, models initially exhibit increased miscalibration before achieving better calibration and miscalibration tends to arise in low-shot settings. Moreover, we find that methods aimed at improving usability, such as fine-tuning and chain-of-thought (CoT) prompting, can lead to miscalibration and unreliable natural language explanations, suggesting that new methods may be required for scenarios where models are expected to be reliable.

arxiv情報

著者 Hanlin Zhang,Yi-Fan Zhang,Yaodong Yu,Dhruv Madeka,Dean Foster,Eric Xing,Himabindu Lakkaraju,Sham Kakade
発行日 2024-01-02 05:10:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク