TED: Accelerate Model Training by Internal Generalization

要約

近年、大規模な言語モデルは優れたパフォーマンスを示していますが、トレーニングのコストが高いため、データセットのサイズを圧縮する効率的な方法の必要性が高まっています。
我々は TED 枝刈りを提案します。これは、内部一般化 (IG) として知られる、保持されたデータをフィッティングしながら枝刈りされたデータのパフォーマンスを向上させるモデルの能力を定量化することで、高い枝刈り率の下での過剰適合の課題に対処する方法です。
TED は、内部汎化距離 (IGD) に基づく最適化目標を使用し、枝刈りの前後の IG の変化を測定して、真の汎化パフォーマンスと一致させ、暗黙的な正則化を実現します。
IGD 最適化目標は、モデルが汎化誤差の最小上限を達成できるように検証されました。
小さなマスク変動が IG に及ぼす影響は、マスクとテイラー近似を通じて研究され、IGD の高速推定が可能になります。
継続的なトレーニングのダイナミクスを分析する際に、IGD の以前の効果が検証され、漸進的な枝刈り戦略が提案されます。
画像分類、自然言語理解、大規模言語モデルの微調整に関する実験では、TED がデータの 60 ~ 70% でロスレス パフォーマンスを達成していることが示されています。
承認されると、コードは一般に公開されます。

要約(オリジナル)

Large language models have demonstrated strong performance in recent years, but the high cost of training drives the need for efficient methods to compress dataset sizes. We propose TED pruning, a method that addresses the challenge of overfitting under high pruning ratios by quantifying the model’s ability to improve performance on pruned data while fitting retained data, known as Internal Generalization (IG). TED uses an optimization objective based on Internal Generalization Distance (IGD), measuring changes in IG before and after pruning to align with true generalization performance and achieve implicit regularization. The IGD optimization objective was verified to allow the model to achieve the smallest upper bound on generalization error. The impact of small mask fluctuations on IG is studied through masks and Taylor approximation, and fast estimation of IGD is enabled. In analyzing continuous training dynamics, the prior effect of IGD is validated, and a progressive pruning strategy is proposed. Experiments on image classification, natural language understanding, and large language model fine-tuning show TED achieves lossless performance with 60-70\% of the data. Upon acceptance, our code will be made publicly available.

arxiv情報

著者 Jinying Xiao,Ping Li,Jie Nie
発行日 2024-08-19 14:33:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク