ResoFilter: Fine-grained Synthetic Data Filtering for Large Language Models through Data-Parameter Resonance Analysis

要約

大規模な言語モデル(LLM)は、さまざまなドメインで顕著な有効性を示しており、合成データ生成にGPTを利用するデータ増強方法が一般的になります。
ただし、拡張データの品質と有用性は疑わしいままであり、現在の方法にはデータ特性を評価するための明確なメトリックがありません。
これらの課題に対処するために、モデル、データ、およびタスクを統合してデータセットを改良する新しい方法であるResOfilterを提案します。
ResOfilterは、微調整プロセスを活用して、データ選択用のデータパラメーター機能を取得し、モデルの重みを介してデータ特性を表現することで解釈可能性を向上させます。
私たちの実験は、Resofilterが数学タスクのデータの半分のみを使用してフルスケールの微調整に匹敵する結果を達成し、異なるモデルとドメインにわたって強力な一般化を示すことを示しています。
この方法は、合成データセットを構築し、高品質のデータを評価するための貴重な洞察を提供し、データ増強技術を強化し、LLMのトレーニングデータセット品質を改善するための有望なソリューションを提供します。
再現性のために、受け入れ時にコードとデータをリリースします。

要約(オリジナル)

Large language models (LLMs) have shown remarkable effectiveness across various domains, with data augmentation methods utilizing GPT for synthetic data generation becoming prevalent. However, the quality and utility of augmented data remain questionable, and current methods lack clear metrics for evaluating data characteristics. To address these challenges, we propose ResoFilter, a novel method that integrates models, data, and tasks to refine datasets. ResoFilter leverages the fine-tuning process to obtain Data-Parameter features for data selection, offering improved interpretability by representing data characteristics through model weights. Our experiments demonstrate that ResoFilter achieves comparable results to full-scale fine-tuning using only half the data in mathematical tasks and exhibits strong generalization across different models and domains. This method provides valuable insights for constructing synthetic datasets and evaluating high-quality data, offering a promising solution for enhancing data augmentation techniques and improving training dataset quality for LLMs. For reproducibility, we will release our code and data upon acceptance.

arxiv情報

著者 Zeao Tu,Xiangdi Meng,Yu He,Zihan Yao,Tianyu Qi,Jun Liu,Ming Li
発行日 2025-01-24 13:54:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク