LACIE: Listener-Aware Finetuning for Confidence Calibration in Large Language Models

要約

質問に答えるとき、LLM は答えだけでなく、その答えが正しいという自信のレベルも伝えることができます。
これには、明示的な信頼度マーカー (数値スコアの付与など) だけでなく、権威ある口調や追加の知識の詳細などの暗黙的なマーカーも含まれます。
LLM が信頼できる知識源であるためには、LLM が伝える自信が実際の専門知識と一致している必要があります。
ただし、現在のモデルのほとんどは自信過剰になる傾向があります。
暗黙的信頼マーカーと明示的信頼マーカーの両方を調整するために、回答が正しいかどうかだけでなく、それがリスナーに受け入れられるかどうかを考慮して、リスナーをモデル化する実用的なリスナーを意識した微調整手法 (LACIE) を導入します。
私たちはキャリブレーションを好みの最適化として位置づけ、スピーカー モデルの出力がシミュレートされたリスナーによって判断される 2 エージェント ゲームを通じてデータを作成します。
次に、LACIE を使用して 3 つの LLM (Mistral-7B、Llama3-8B、Llama3-70B) を微調整し、結果のモデルがより適切に調整されていることを示します。
シミュレートされたリスナー。
重要なのは、これらの傾向が人間のリスナーに伝わり、リスナーがモデルの正しさを正確に予測するのに役立ちます。私たちは、アノテーターが LLM の回答を受け入れるか拒否する人間による評価を実施しました。その結果、LACIE を使用したトレーニングにより、同じレベルを維持しながら、受け入れられる不正解が 47% 減少することがわかりました。
正解に対する受け入れ。
さらに、LACIE は別のデータセットに一般化するため、TriviaQA でトレーニングすると、TruthfulQA の真実性が大幅に向上します。
私たちの分析は、LACIE が正しい例と間違った例の間の信頼性をより適切に分離することにつながることを示しています。
定性的には、LACIE でトレーニングされたモデルはより多くのヘッジを行い、権威ある口調を使用したり詳細を含めたりすることで、正しい場合に確実性を暗黙的に通知できることがわかりました。
最後に、LACIE の微調整により、間違っている可能性が高い回答に対するモデルの棄権 (例: 「わかりません」と言う) が急増します。

要約(オリジナル)

When answering questions, LLMs can convey not only an answer, but a level of confidence about the answer being correct. This includes explicit confidence markers (e.g. giving a numeric score) as well as implicit markers, like an authoritative tone or elaborating with additional knowledge. For LLMs to be trustworthy knowledge sources, the confidence they convey should match their actual expertise; however, most current models tend towards overconfidence. To calibrate both implicit and explicit confidence markers, we introduce a pragmatic, listener-aware finetuning method (LACIE) that models the listener, considering not only whether an answer is right, but whether it will be accepted by a listener. We cast calibration as preference optimization, creating data via a two-agent game, where a speaker model’s outputs are judged by a simulated listener. We then finetune three LLMs (Mistral-7B, Llama3-8B, Llama3-70B) with LACIE, and show that the resulting models are better calibrated w.r.t. a simulated listener. Crucially, these trends transfer to human listeners, helping them correctly predict model correctness: we conduct a human evaluation where annotators accept or reject an LLM’s answers, finding that training with LACIE results in 47% fewer incorrect answers being accepted while maintaining the same level of acceptance for correct answers. Furthermore, LACIE generalizes to another dataset, resulting in a large increase in truthfulness on TruthfulQA when trained on TriviaQA. Our analysis indicates that LACIE leads to a better confidence separation between correct and incorrect examples. Qualitatively, we find that a LACIE-trained model hedges more and implicitly signals certainty when it is correct by using an authoritative tone or including details. Finally, LACIE finetuning leads to an emergent increase in model abstention (e.g. saying ‘I don’t know’) for answers that are likely wrong.

arxiv情報

著者 Elias Stengel-Eskin,Peter Hase,Mohit Bansal
発行日 2024-05-31 17:16:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク