RobustFT: Robust Supervised Fine-tuning for Large Language Models under Noisy Response

要約

教師あり微調整 (SFT) は、大規模言語モデル (LLM) を特定のドメインまたはタスクに適応させる際に重要な役割を果たします。
ただし、実証実験で実証されているように、実際のアプリケーションでは収集されたデータには必然的にノイズが含まれるため、下流タスクのパフォーマンスをモデル化する際に大きな課題が生じます。
したがって、下流タスクのモデル機能を強化するために、ノイズに強い SFT フレームワークが緊急に必要とされています。
この課題に対処するために、ダウンストリーム タスク データのノイズ検出と再ラベル付けを実行する堅牢な SFT フレームワーク (RobustFT) を導入します。
ノイズ識別の場合、私たちのアプローチでは、推論強化モデルを備えた複数の専門家による協力システムを採用し、優れたノイズ検出を実現します。
ノイズ除去フェーズでは、コンテキスト強化戦略を利用します。これには、最も関連性が高く信頼性の高い知識とそれに続く慎重な評価が組み込まれ、信頼性の高いアノテーションが生成されます。
さらに、応答エントロピーに基づいた効果的なデータ選択メカニズムを導入し、高品質のサンプルのみが微調整のために保持されるようにします。
5 つのデータセットにわたる複数の LLM に対して行われた広範な実験により、ノイズの多いシナリオにおける RobustFT の優れたパフォーマンスが実証されました。

要約(オリジナル)

Supervised fine-tuning (SFT) plays a crucial role in adapting large language models (LLMs) to specific domains or tasks. However, as demonstrated by empirical experiments, the collected data inevitably contains noise in practical applications, which poses significant challenges to model performance on downstream tasks. Therefore, there is an urgent need for a noise-robust SFT framework to enhance model capabilities in downstream tasks. To address this challenge, we introduce a robust SFT framework (RobustFT) that performs noise detection and relabeling on downstream task data. For noise identification, our approach employs a multi-expert collaborative system with inference-enhanced models to achieve superior noise detection. In the denoising phase, we utilize a context-enhanced strategy, which incorporates the most relevant and confident knowledge followed by careful assessment to generate reliable annotations. Additionally, we introduce an effective data selection mechanism based on response entropy, ensuring only high-quality samples are retained for fine-tuning. Extensive experiments conducted on multiple LLMs across five datasets demonstrate RobustFT’s exceptional performance in noisy scenarios.

arxiv情報

著者 Junyu Luo,Xiao Luo,Kaize Ding,Jingyang Yuan,Zhiping Xiao,Ming Zhang
発行日 2024-12-19 15:00:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク