要約
拒否対応命令チューニング (RAIT) により、大規模言語モデル (LLM) が未知の質問への回答を拒否できるようになります。
RAIT は、トレーニング データ内の未知の質問の応答を「わかりません」などの拒否応答に変更することで、LLM の信頼性を高め、幻覚を軽減します。
一般に、RAIT は、初期 LLM の応答の正確さに基づいてトレーニング サンプルを変更します。
ただし、この粗雑なアプローチでは、LLM が正しく答えられるはずの質問への回答を過剰に拒否する可能性があり、これを過剰拒否と呼んでいます。
この論文では、過剰拒否の 2 つの主な原因を調査します。LLM の特徴空間内の類似したサンプルが異なる監視信号 (オリジナルと変更された「わかりません」) を受信すると、静的な競合が発生します。
一方、動的競合は、SFT 中に LLM の知識が進化し、以前は答えられなかった質問に答えることができるようになるにつれて出現します。
しかし、これらの現在応答可能なトレーニング サンプルは、初期 LLM 状態に基づいた元の「わからない」監視信号を依然として保持しているため、不一致が生じます。
これらの矛盾により、訓練された LLM が既知の質問を未知のものとして誤分類し、過剰拒否が発生します。
この問題に対処するために、拒否対応指示チューニングのための確実性表現ナレッジ フロー (CRaFT) を導入します。
CRaFT は 2 つの主な貢献に重点を置いています。まず、応答の確実性を追加して、データを選択的にフィルタリングおよび変更し、静的な競合を削減します。
次に、LLM の知識状態の変化を特徴付けるための事前リハーサル トレーニングを実装します。これは、微調整プロセス中の動的な競合を軽減するのに役立ちます。
私たちは、自由回答形式の質問と多肢選択形式の質問タスクについて広範な実験を実施しました。
実験結果は、CRaFT が RAIT プロセス中に LLM の全体的なパフォーマンスを向上させることができることを示しています。
ソースコードと学習データはGithubで公開する予定です。
要約(オリジナル)
Refusal-Aware Instruction Tuning (RAIT) enables Large Language Models (LLMs) to refuse to answer unknown questions. By modifying responses of unknown questions in the training data to refusal responses such as ‘I don’t know’, RAIT enhances the reliability of LLMs and reduces their hallucination. Generally, RAIT modifies training samples based on the correctness of the initial LLM’s response. However, this crude approach can cause LLMs to excessively refuse answering questions they could have correctly answered, the problem we call over-refusal. In this paper, we explore two primary causes of over-refusal: Static conflict occurs when similar samples within the LLM’s feature space receive differing supervision signals (original vs. modified ‘I don’t know’). Dynamic conflict, on the other hand, emerges as the LLM’s knowledge evolves during SFT, allowing it to answer questions that were previously unanswerable. Yet, these now-answerable training samples still retain the original ‘I don’t know’ supervision signals based on the initial LLM state, resulting in inconsistencies. These conflicts cause the trained LLM to misclassify known questions as unknown, resulting in over-refusal. To address this issue, we introduce Certainty Represented Knowledge Flow for Refusal-Aware Instructions Tuning (CRaFT). CRaFT centers on two main contributions: First, we additionally incorporate response certainty to selectively filter and modify data, reducing static conflicts. Second, we implement preliminary rehearsal training to characterize changes in the LLM’s knowledge state, which helps mitigate dynamic conflicts during the fine-tuning process. We conducted extensive experiments on open-ended question answering and multiple-choice question task. Experiment results show that CRaFT can improve LLM’s overall performance during the RAIT process. Source code and training data will be released at Github.
arxiv情報
著者 | Runchuan Zhu,Zhipeng Ma,Jiang Wu,Junyuan Gao,Jiaqi Wang,Dahua Lin,Conghui He |
発行日 | 2024-11-18 13:15:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google