要約
拒否対応命令チューニング (RAIT) により、大規模言語モデル (LLM) が未知の質問への回答を拒否できるようになります。
RAIT は、トレーニング データ内の未知の質問の応答を「わかりません」などの拒否応答に変更することで、LLM の信頼性を高め、幻覚を軽減します。
一般に、RAIT は、初期 LLM の応答の正確さに基づいてトレーニング サンプルを変更します。
ただし、この粗雑なアプローチでは、LLM が正しく答えられるはずの質問への回答を過剰に拒否する可能性があり、これを過剰拒否と呼んでいます。
この論文では、過剰拒否の 2 つの主な原因を調査します。LLM の特徴空間内の類似したサンプルが異なる監視信号 (オリジナルと変更された「わかりません」) を受信すると、静的な競合が発生します。
SFT 中に LLM の知識が進化することで、以前は答えられなかった質問に答えることができるようになるため、動的な競合が発生します。しかし、現在答えられるようになったトレーニング サンプルには、LLM の初期状態からの元の「わからない」という監視信号が依然として保持されており、不一致が生じます。
これらの矛盾により、訓練された LLM が既知の質問を未知のものとして誤分類し、過剰拒否が発生します。
この問題に対処するために、拒否対応指示チューニングのための確実性表現ナレッジ フロー (CRaFT) を導入します。
CRaFT は 2 つの主な貢献に重点を置いています。まず、応答の確実性を追加して、データを選択的にフィルタリングおよび変更し、静的な競合を削減します。
次に、LLM の知識状態の変化を特徴付けるための事前リハーサル トレーニングを実装します。これは、微調整プロセス中の動的な競合を軽減するのに役立ちます。
私たちは、自由回答形式の質問と多肢選択形式の質問タスクについて広範な実験を実施しました。
実験結果は、CRaFT が RAIT プロセス中の LLM の全体的なパフォーマンスを向上させることができることを示しています。
コードとデータは https://github.com/opendatalab/CRaFT でリリースされます。
要約(オリジナル)
Refusal-Aware Instruction Tuning (RAIT) enables Large Language Models (LLMs) to refuse to answer unknown questions. By modifying responses of unknown questions in the training data to refusal responses such as ‘I don’t know’, RAIT enhances the reliability of LLMs and reduces their hallucination. Generally, RAIT modifies training samples based on the correctness of the initial LLM’s response. However, this crude approach can cause LLMs to excessively refuse answering questions they could have correctly answered, the problem we call over-refusal. In this paper, we explore two primary causes of over-refusal: Static conflict occurs when similar samples within the LLM’s feature space receive differing supervision signals (original vs. modified ‘I don’t know’). Dynamic conflict arises as the LLM’s evolving knowledge during SFT enables it to answer previously unanswerable questions, but the now-answerable training samples still retain the original ‘I don’t know’ supervision signals from the initial LLM state, leading to inconsistencies. These conflicts cause the trained LLM to misclassify known questions as unknown, resulting in over-refusal. To address this issue, we introduce Certainty Represented Knowledge Flow for Refusal-Aware Instructions Tuning (CRaFT). CRaFT centers on two main contributions: First, we additionally incorporate response certainty to selectively filter and modify data, reducing static conflicts. Second, we implement preliminary rehearsal training to characterize changes in the LLM’s knowledge state, which helps mitigate dynamic conflicts during the fine-tuning process. We conducted extensive experiments on open-ended question answering and multiple-choice question task. Experiment results show that CRaFT can improve LLM’s overall performance during the RAIT process. Code and data will be released at https://github.com/opendatalab/CRaFT .
arxiv情報
著者 | Runchuan Zhu,Zhipeng Ma,Jiang Wu,Junyuan Gao,Jiaqi Wang,Dahua Lin,Conghui He |
発行日 | 2024-12-20 09:40:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google