Automated Data Curation for Robust Language Model Fine-Tuning

要約

大規模言語モデルは、シーケンスツーシーケンスのテキスト生成タスクに対する事実上のアプローチとなっていますが、特殊なタスク/ドメインの場合、事前トレーニングされた LLM には、正確な、または適切にフォーマットされた応答を生成するための特定の機能が不足しています。
教師あり微調整では、ターゲット応答を含むプロンプト例のデータセットで LLM をトレーニングすることで LLM を特殊化しますが、現実世界のデータはノイズが多い傾向があります。
多くの微調整アルゴリズムが存在しますが、ここでは LLM 微調整に関する \emph{データ中心の AI} の観点を考慮し、トレーニング データセットを \emph{体系的に} キュレーションして \emph{任意} 経由で生成される LLM を改善する方法を研究します。
アルゴリズムの微調整。
命令調整データセット用の自動データ キュレーション パイプライン CLEAR (Confidence-based LLM Evaluation And Rectification) を導入します。これは、任意の LLM および微調整手順で使用できます。
CLEAR は、どのトレーニング データが低品質であるかを推定し、それをフィルタリングまたは修正します。
どのデータをフィルタリングまたは修正するかは、LLM から導出された信頼性推定によって自動的に特定され、データセットに対する確実な変更のみが保証されます。
既存のデータ キュレーション手法とは異なり、CLEAR は追加の微調整計算を行わずにデータセット (およびトレーニングされたモデルの出力) を改善できる包括的なフレームワークです。
CLEAR が LLM の機能を有意義に改善できるかどうかを確認するために、微調整されているモデルよりも強力な LLM へのアクセス (例: \ GPT-3.5 を微調整するときに GPT-4 に依存する) を想定していません。
実験の結果、CLEAR は多くのデータセットやモデル (GPT-3.5 や Llama2 など) にわたって微調整されたモデルのパフォーマンスを一貫して向上させることが明らかになりました。

要約(オリジナル)

Large Language Models have become the de facto approach to sequence-to-sequence text generation tasks, but for specialized tasks/domains, a pretrained LLM lacks specific capabilities to produce accurate or well-formatted responses. Supervised fine-tuning specializes a LLM by training it on dataset of example prompts with target responses, but real-world data tends to be noisy. While many fine-tuning algorithms exist, here we consider a \emph{data-centric AI} perspective on LLM fine-tuning, studying how to \emph{systematically} curate the training dataset to improve the LLM produced via \emph{any} fine-tuning algorithm. We introduce an automated data curation pipeline CLEAR (Confidence-based LLM Evaluation And Rectification) for instruction tuning datasets, that can be used with any LLM and fine-tuning procedure. CLEAR estimates which training data is low-quality and either filters or corrects it. Automatically identifying which data to filter or correct is done via LLM-derived confidence estimates, to ensure only confident modifications to the dataset. Unlike existing data curation techniques, CLEAR is a comprehensive framework that can improve a dataset (and trained model outputs) without additional fine-tuning computations. We don’t assume access to a stronger LLM than the model being fine-tuned (e.g.\ relying on GPT-4 when fine-tuning GPT-3.5), to see whether CLEAR can meaningfully improve the capabilities of any LLM. Experiments reveal that CLEAR consistently improves the performance of fine-tuned models across many datasets and models (like GPT-3.5 and Llama2).

arxiv情報

著者 Jiuhai Chen,Jonas Mueller
発行日 2024-03-19 14:44:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク