要約
現在、大規模な言語モデル(LLMS)は、すべてのプロンプトに応答しています。
ただし、知識や能力を欠いている場合、誤った回答を生み出すことができます。これは、幻覚として知られる問題です。
代わりに、トレーニング後のLLMを提案して、その正しさに自信があり、そうでなければ(部分的に)棄権する場合にのみコンテンツを生成します。
具体的には、私たちの方法である停止は、モデルが確実に生成できないものをコードする能力に整合したトレーニング後のデータを生成します。
事前に処理されたLLMの応答を事実上のフラグメント(原子ステートメントまたは推論手順)に分割することにより、このデータを生成し、グラウンドトゥルース情報を使用して誤った断片を識別します。
誤ったフラグメントを削除するか、「ここから不確かな」に置き換えることにより、能力に合わせた微調整応答を実践します。
3つの異なるトレードオフしきい値で停止して、伝記の執筆、数学、コーディング、および薬のための4つのオープンソースモデルを微調整します。
HALTは、正確さのために応答の完全性を効果的に交換し、応答フラグメントの平均正確性を平均で15%増加させ、その結果、関連するベースラインと比較してF1スコア(完全性と応答の完全性と正確性)が4%改善されます。
最も正確さのために停止を調整することにより、正確性を備えた単一の信頼できるllama3-70bモデルをトレーニングし、4つのドメインすべてで51%から87%に増加し、標準的な微調整で達成された応答の完全性の53%を維持します。
要約(オリジナル)
Large Language Models (LLMs) currently respond to every prompt. However, they can produce incorrect answers when they lack knowledge or capability — a problem known as hallucination. We instead propose post-training an LLM to generate content only when confident in its correctness and to otherwise (partially) abstain. Specifically, our method, HALT, produces capability-aligned post-training data that encodes what the model can and cannot reliably generate. We generate this data by splitting responses of the pretrained LLM into factual fragments (atomic statements or reasoning steps), and use ground truth information to identify incorrect fragments. We achieve capability-aligned finetuning responses by either removing incorrect fragments or replacing them with ‘Unsure from Here’ — according to a tunable threshold that allows practitioners to trade off response completeness and mean correctness of the response’s fragments. We finetune four open-source models for biography writing, mathematics, coding, and medicine with HALT for three different trade-off thresholds. HALT effectively trades off response completeness for correctness, increasing the mean correctness of response fragments by 15% on average, while resulting in a 4% improvement in the F1 score (mean of completeness and correctness of the response) compared to the relevant baselines. By tuning HALT for highest correctness, we train a single reliable Llama3-70B model with correctness increased from 51% to 87% across all four domains while maintaining 53% of the response completeness achieved with standard finetuning.
arxiv情報
著者 | Tim Franzmeyer,Archie Sravankumar,Lijuan Liu,Yuning Mao,Rui Hou,Sinong Wang,Jakob N. Foerster,Luke Zettlemoyer,Madian Khabsa |
発行日 | 2025-06-04 15:16:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google