要約
大規模な言語モデル(LLMS)は、自然言語処理(NLP)で優れたパフォーマンスを示しますが、特にこれらのクエリに誤解を招くまたは不正確な情報が含まれている場合、入力クエリの品質に非常に敏感なままです。
既存の方法は、出力の修正に焦点を当てていますが、多くの場合、LLMSが入力自体の誤解を招くコンテンツを検出および修正する能力を改善する可能性を見落としています。
この論文では、LLMが入力の誤解を招く情報を検出および修正する能力を強化し、応答の精度をさらに向上させ、幻覚を減らす新しい3段階の微調整方法を提案します。
具体的には、3つの段階には、(1)誤解を招く情報を特定するためのLLMSのトレーニング、(2)組み込みまたは外部の知識を使用した誤解を招く情報を修正するLLMSのトレーニング、および(3)修正されたクエリに基づいて正確な回答を生成するためのLLMSをトレーニングすることが含まれます。
この方法を評価するために、幻覚検出タスクと質問回答(QA)タスクの3つのデータセットで実験を実施し、作成した誤解を招く情報を含む2つのデータセットを実施しました。
実験結果は、この方法がLLM応答の精度と事実を大幅に改善し、特にクエリに誤解を招く情報が含まれている場合、幻覚を検出し、出力の幻覚の生成を減らす能力を高めることを示しています。
受け入れたときにコードを公開します。
要約(オリジナル)
Large language models (LLMs) exhibit excellent performance in natural language processing (NLP), but remain highly sensitive to the quality of input queries, especially when these queries contain misleading or inaccurate information. Existing methods focus on correcting the output, but they often overlook the potential of improving the ability of LLMs to detect and correct misleading content in the input itself. In this paper, we propose a novel three-stage fine-tuning method that enhances the ability of LLMs to detect and correct misleading information in the input, further improving response accuracy and reducing hallucinations. Specifically, the three stages include (1) training LLMs to identify misleading information, (2) training LLMs to correct the misleading information using built-in or external knowledge, and (3) training LLMs to generate accurate answers based on the corrected queries. To evaluate our method, we conducted experiments on three datasets for the hallucination detection task and the question answering (QA) task, as well as two datasets containing misleading information that we constructed. The experimental results demonstrate that our method significantly improves the accuracy and factuality of LLM responses, while also enhancing the ability to detect hallucinations and reducing the generation of hallucinations in the output, particularly when the query contains misleading information. We will publicly release our code upon acceptance.
arxiv情報
著者 | Guocong Li,Weize Liu,Yihang Wu,Ping Wang,Shuaihan Huang,Hongxia Xu,Jian Wu |
発行日 | 2025-04-15 15:16:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google