Clear Minds Think Alike: What Makes LLM Fine-tuning Robust? A Study of Token Perplexity

要約

ドメイン全体で一貫したモデルパフォーマンスを維持することは、機械学習における基本的な課題です。
最近の研究では、LLM生成データを微調整するために使用して検討していますが、ドメインの一般化への影響は依然としてよく理解されていません。
このホワイトペーパーでは、LLM生成データで微調整するとターゲットタスクのパフォーマンスが向上するだけでなく、地上の真理データを使用した微調整と比較して領域外(OOD)の分解を減らすことを明らかにする体系的な分析を提示します。
さまざまなドメインのタスクでのデータシーケンスを分析することにより、LLM生成シーケンスの高困惑トークンの有病率の低下に由来することを実証します。
この仮説に続いて、グラウンドトゥルーストレーニングデータの高い困惑トークンをマスキングすると、LLM生成データの使用に匹敵する同様のood保存も実現することが示されました。
GEMMA2-2B、Mistral-7B、Llama3-8Bを含む多様なモデルアーキテクチャとスケールにわたる広範な実験は、調査結果の一貫性を裏付けています。
私たちの知る限り、この作品は、LLM生成トレーニングデータによって付与された優れたOOD堅牢性について最初の機械的説明を提供し、より堅牢な微調整戦略を開発するための貴重な洞察を提供します。

要約(オリジナル)

Maintaining consistent model performance across domains is a fundamental challenge in machine learning. While recent work has explored using LLM-generated data for fine-tuning, its impact on cross-domain generalization remains poorly understood. In this paper, we present a systematic analysis revealing that fine-tuning with LLM-generated data not only improves target task performance but also reduces out-of-domain (OOD) degradation compared to fine-tuning with ground truth data. Through analyzing the data sequence in tasks of various domains, we demonstrate that this enhanced OOD robustness stems from a reduced prevalence of high perplexity tokens in LLM-generated sequences. Following this hypothesis we showed that masking high perplexity tokens in ground truth training data also achieves similar OOD preservation comparable to using LLM-generated data. Extensive experiments across diverse model architectures and scales, including Gemma2-2B, Mistral-7B and Llama3-8B, corroborate the consistency of our findings. To the best of our knowledge, this work provides the first mechanistic explanation for the superior OOD robustness conferred by LLM-generated training data, offering valuable insights for developing more robust fine-tuning strategies.

arxiv情報

著者 Chao-Chung Wu,Zhi Rui Tam,Chieh-Yen Lin,Hung-yi Lee,Yun-Nung Chen
発行日 2025-01-24 08:18:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク