Transferable text data distillation by trajectory matching

要約

大規模な言語モデル(LLM)の領域では、大規模なモデルのサイズが大きくなると、トレーニングコストも高くなります。
LLMトレーニングのデータサイズを最小限に抑える必要があります。
データ選択方法と比較して、データ蒸留方法は、少数のデータサンプルを合成して、完全なデータセットのトレーニング効果を実現することを目的としており、柔軟性が向上します。
コンピュータービジョンの成功にもかかわらず、テキストデータの離散性は、これまで自然言語処理(NLP)での調査を妨げてきました。
この作業では、軌跡の一致に基づいて擬似プロンプトデータを学習し、横断的な隣接IDを見つけて横断的な移転を達成する方法を含む方法を提案しました。
蒸留プロセス中に、蒸留データの堅牢性を改善するために正則化損失を導入します。
私たちの最善の知識のために、これは、命令チューニングなどのテキスト生成タスクに適した最初のデータ蒸留作業です。
ARC-EASYおよびMMLU命令チューニングデータセットを含む2つのベンチマークの評価により、SOTAデータ選択方法よりも蒸留アプローチの優位性が少なくなりました。
さらに、私たちの方法は、LLM構造を介した適切な移動性を示しています(つまり、LLAMAへの選択)。

要約(オリジナル)

In the realm of large language model (LLM), as the size of large models increases, it also brings higher training costs. There is a urgent need to minimize the data size in LLM training. Compared with data selection method, the data distillation method aims to synthesize a small number of data samples to achieve the training effect of the full data set and has better flexibility. Despite its successes in computer vision, the discreteness of text data has hitherto stymied its exploration in natural language processing (NLP). In this work, we proposed a method that involves learning pseudo prompt data based on trajectory matching and finding its nearest neighbor ID to achieve cross-architecture transfer. During the distillation process, we introduce a regularization loss to improve the robustness of our distilled data. To our best knowledge, this is the first data distillation work suitable for text generation tasks such as instruction tuning. Evaluations on two benchmarks, including ARC-Easy and MMLU instruction tuning datasets, established the superiority of our distillation approach over the SOTA data selection method LESS. Furthermore, our method demonstrates a good transferability over LLM structures (i.e., OPT to Llama).

arxiv情報

著者 Rong Yao,Hailin Hu,Yifei Fu,Hanting Chen,Wenyi Fang,Fanyi Du,Kai Han,Yunhe Wang
発行日 2025-04-24 12:46:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク