SaySelf: Teaching LLMs to Express Confidence with Self-Reflective Rationales

要約

大規模言語モデル (LLM) は、不正確な情報や捏造された情報を生成することが多く、一般にその信頼性を示すことができないため、より広範な応用が制限されます。
これまでの研究では、直接または自己一貫性のプロンプトを使用したり、教師あり微調整用の特定のデータセットを構築したりすることによって、LLM から信頼性を引き出していました。
プロンプトベースのアプローチはパフォーマンスが劣っており、トレーニングベースのアプローチはバイナリまたは不正確なグループレベルの信頼推定値に限定されます。
この研究では、LLM に、より正確で詳細な信頼度推定値を表現するよう教えるトレーニング フレームワークである高度な SaySelf を紹介します。
さらに、SaySelf は、信頼度スコアを超えて、LLM にパラメトリック知識のギャップを明確に特定し、その不確実性を説明する内省的な理論的根拠を生成するよう指示するプロセスを開始します。
これは、LLM を使用して、自然言語を介して特定の知識の不確実性を自動的に要約することによって実現されます。
要約は、複数のサンプリングされた推論チェーンにおける矛盾の分析に基づいており、結果として得られるデータは教師付き微調整に利用されます。
さらに、綿密に作成された報酬関数を備えた強化学習を利用して信頼性推定値を調整し、LLM が正確で信頼性の高い予測を提供し、誤った出力に対する過信にペナルティを与えるよう動機づけます。
分布内データセットと分布外データセットの両方における実験結果は、信頼度調整誤差を削減し、タスクのパフォーマンスを維持する上での SaySelf の有効性を示しています。
生成された内省的理論的根拠が合理的であり、さらに校正に貢献できることを示します。
コードは \url{https://github.com/xu1868/SaySelf} で公開されています。

要約(オリジナル)

Large language models (LLMs) often generate inaccurate or fabricated information and generally fail to indicate their confidence, which limits their broader applications. Previous work elicits confidence from LLMs by direct or self-consistency prompting, or constructing specific datasets for supervised finetuning. The prompting-based approaches have inferior performance, and the training-based approaches are limited to binary or inaccurate group-level confidence estimates. In this work, we present the advanced SaySelf, a training framework that teaches LLMs to express more accurate fine-grained confidence estimates. In addition, beyond the confidence scores, SaySelf initiates the process of directing LLMs to produce self-reflective rationales that clearly identify gaps in their parametric knowledge and explain their uncertainty. This is achieved by using an LLM to automatically summarize the uncertainties in specific knowledge via natural language. The summarization is based on the analysis of the inconsistency in multiple sampled reasoning chains, and the resulting data is utilized for supervised fine-tuning. Moreover, we utilize reinforcement learning with a meticulously crafted reward function to calibrate the confidence estimates, motivating LLMs to deliver accurate, high-confidence predictions and to penalize overconfidence in erroneous outputs. Experimental results in both in-distribution and out-of-distribution datasets demonstrate the effectiveness of SaySelf in reducing the confidence calibration error and maintaining the task performance. We show that the generated self-reflective rationales are reasonable and can further contribute to the calibration. The code is made public at \url{https://github.com/xu1868/SaySelf}.

arxiv情報

著者 Tianyang Xu,Shujin Wu,Shizhe Diao,Xiaoze Liu,Xingyao Wang,Yangyi Chen,Jing Gao
発行日 2024-05-31 16:21:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク