要約
質問に答えるとき、LLMは答えだけでなく、その答えが正しいという確信の度合いも伝えることができる。これには、明示的な自信の印(例えば、点数を示す)だけでなく、権威的な口調や追加知識を詳しく説明するような暗黙的な印も含まれる。LLMが信頼できる知識源であるためには、LLMが伝える自信は実際の専門知識と一致すべきである。暗黙的・明示的な自信マーカーをキャリブレーションするために、我々は聞き手をモデル化し、答えが正しいかどうかだけでなく、聞き手に受け入れられるかどうかを考慮する、実用的で聞き手を意識した微調整手法(LACIE)を導入する。我々はキャリブレーションを選好最適化として捉え、話者モデルの出力が模擬聞き手によって判定される2エージェントゲームによってデータを作成する。そして、3つのLLM(Mistral-7B、Llama3-8B、Llama3-70B)をLACIEで微調整し、その結果、模擬聞き手に対してより良いモデルがキャリブレーションされることを示す。LACIEを用いた訓練により、正解の受け入れは同レベルを維持しながら、不正解の受け入れが47%減少することがわかった。さらに、LACIEは別のデータセットにも汎化し、TruthfulQAをTriviaQAで訓練した場合、TruthfulQAの真実性が大幅に向上しました。我々の分析によれば、LACIEは正解例と不正解例の信頼度分離をより良くする。定性的には、LACIEで訓練されたモデルは、より多くのヘッジを行い、権威的な口調を使ったり、詳細を含めたりすることで、正しい場合に暗黙のうちに確からしさを示すことが分かる。最後に、LACIEの微調整は、間違っている可能性が高い回答に対するモデルの棄権(「わからない」と言うなど)の増加をもたらす。
要約(オリジナル)
When answering questions, LLMs can convey not only an answer, but a level of confidence about the answer being correct. This includes explicit confidence markers (e.g. giving a numeric score) as well as implicit markers, like an authoritative tone or elaborating with additional knowledge. For LLMs to be trustworthy knowledge sources, the confidence they convey should match their actual expertise; however, most current models tend towards overconfidence. To calibrate both implicit and explicit confidence markers, we introduce a pragmatic, listener-aware finetuning method (LACIE) that models the listener, considering not only whether an answer is right, but whether it will be accepted by a listener. We cast calibration as preference optimization, creating data via a two-agent game, where a speaker model’s outputs are judged by a simulated listener. We then finetune three LLMs (Mistral-7B, Llama3-8B, Llama3-70B) with LACIE, and show that the resulting models are better calibrated w.r.t. a simulated listener. Crucially, these trends transfer to human listeners, helping them correctly predict model correctness: we conduct a human evaluation where annotators accept or reject an LLM’s answers, finding that training with LACIE results in 47% fewer incorrect answers being accepted while maintaining the same level of acceptance for correct answers. Furthermore, LACIE generalizes to another dataset, resulting in a large increase in truthfulness on TruthfulQA when trained on TriviaQA. Our analysis indicates that LACIE leads to a better confidence separation between correct and incorrect examples. Qualitatively, we find that a LACIE-trained model hedges more and implicitly signals certainty when it is correct by using an authoritative tone or including details. Finally, LACIE finetuning leads to an emergent increase in model abstention (e.g. saying ‘I don’t know’) for answers that are likely wrong.
arxiv情報
著者 | Elias Stengel-Eskin,Peter Hase,Mohit Bansal |
発行日 | 2024-07-03 12:49:23+00:00 |
arxivサイト | arxiv_id(pdf) |