Semi-supervised Fine-tuning for Large Language Models

要約

監視された微調整(SFT)は、大規模な言語モデル(LLMS)を特定のドメインまたはタスクに適応させる上で重要です。
ただし、実用的なアプリケーションでは、限られた量のラベル付きデータのみが利用可能であり、SFTが満足のいく結果をもたらすという深刻な課題を提起します。
したがって、LLM微調整のためにラベル付きデータと非標識データを完全に活用できるデータ効率の高いフレームワークは非常に期待されています。
伝播と選択の方法。
知識の伝播のために、Semievolはバイレベルのアプローチを採用し、ラベル付きデータから知識を、重量とコンテキスト内の両方のメソッドの両方を通じて、ラベル付けされていないデータに伝播します。
知識の選択のために、Semievolは共同学習メカニズムを組み込み、高品質の擬似応答サンプルを選択します。
7つの一般またはドメイン固有のデータセットでGPT-4O-MINIおよびLLAMA-3.1を使用して実験を行い、ターゲットデータのモデルパフォーマンスの大幅な改善を示しました。
さらに、SemivolをSFTおよび自己進化方法と比較し、ハイブリッドデータシナリオでの実用性を強調しました。

要約(オリジナル)

Supervised fine-tuning (SFT) is crucial in adapting large language model (LLMs) to a specific domain or task. However, only a limited amount of labeled data is available in practical applications, which poses a severe challenge for SFT in yielding satisfactory results. Therefore, a data-efficient framework that can fully exploit labeled and unlabeled data for LLM fine-tuning is highly anticipated.Towards this end, we introduce a semi-supervised fine-tuning(SemiFT) task and a framework named SemiEvol for LLM alignment from a propagate-and-select manner. For knowledge propagation, SemiEvol adopts a bi-level approach, propagating knowledge from labeled data to unlabeled data through both in-weight and in-context methods. For knowledge selection, SemiEvol incorporates a collaborative learning mechanism, selecting higher-quality pseudo-response samples. We conducted experiments using GPT-4o-mini and Llama-3.1 on seven general or domain-specific datasets, demonstrating significant improvements in model performance on target data. Furthermore, we compared SemiEvol with SFT and self-evolution methods, highlighting its practicality in hybrid data scenarios.

arxiv情報

著者 Junyu Luo,Xiao Luo,Xiusi Chen,Zhiping Xiao,Wei Ju,Ming Zhang
発行日 2025-02-19 15:32:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク