SaySelf: Teaching LLMs to Express Confidence with Self-Reflective Rationales

要約

大規模言語モデル(LLM)は、しばしば不正確な情報や捏造された情報を生成する。これまでの研究では、LLMから信頼度を引き出すには、直接プロンプトを出すか、自己無撞着プロンプトを出すか、あるいは教師ありの微調整のために特定のデータセットを構築する。プロンプトに基づくアプローチは性能が劣り、訓練に基づくアプローチは二値か不正確なグループレベルの信頼度推定に限定される。本研究では、より正確なきめ細かい信頼度推定を表現するためにLLMに学習させる、進化した学習フレームワークSaySelfを提示する。さらに、SaySelfは信頼度スコアだけでなく、LLMにパラメトリック知識のギャップを明確に特定し、不確実性を説明する自己反省的な根拠を作成させるプロセスを開始する。これは、LLMが自然言語を用いて特定の知識の不確実性を自動的に要約することによって達成される。この要約は、サンプリングされた複数の推論連鎖における矛盾の分析に基づいており、得られたデータは教師ありの微調整に利用される。さらに、LLMが正確で信頼度の高い予測を行うように動機付け、誤った出力には過信のペナルティを与えるように、信頼度の推定値を較正するために、綿密に作られた報酬関数による強化学習を利用する。分布内データセットと分布外データセットの両方における実験結果は、信頼度の較正誤差を低減し、タスク性能を維持するSaySelfの有効性を実証する。生成された自己反省的な根拠は妥当であり、さらにキャリブレーションに貢献できることを示す。コードはhttps://github.com/xu1868/SaySelf。

要約(オリジナル)

Large language models (LLMs) often generate inaccurate or fabricated information and generally fail to indicate their confidence, which limits their broader applications. Previous work elicits confidence from LLMs by direct or self-consistency prompting, or constructing specific datasets for supervised finetuning. The prompting-based approaches have inferior performance, and the training-based approaches are limited to binary or inaccurate group-level confidence estimates. In this work, we present the advanced SaySelf, a training framework that teaches LLMs to express more accurate fine-grained confidence estimates. In addition, beyond the confidence scores, SaySelf initiates the process of directing LLMs to produce self-reflective rationales that clearly identify gaps in their parametric knowledge and explain their uncertainty. This is achieved by using an LLM to automatically summarize the uncertainties in specific knowledge via natural language. The summarization is based on the analysis of the inconsistency in multiple sampled reasoning chains, and the resulting data is utilized for supervised fine-tuning. Moreover, we utilize reinforcement learning with a meticulously crafted reward function to calibrate the confidence estimates, motivating LLMs to deliver accurate, high-confidence predictions and to penalize overconfidence in erroneous outputs. Experimental results in both in-distribution and out-of-distribution datasets demonstrate the effectiveness of SaySelf in reducing the confidence calibration error and maintaining the task performance. We show that the generated self-reflective rationales are reasonable and can further contribute to the calibration. The code is made public at https://github.com/xu1868/SaySelf.

arxiv情報

著者 Tianyang Xu,Shujin Wu,Shizhe Diao,Xiaoze Liu,Xingyao Wang,Yangyi Chen,Jing Gao
発行日 2024-10-04 17:23:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク