Investigating Continual Pretraining in Large Language Models: Insights and Implications

要約

大規模な言語モデル(LLMS)の継続的な学習(CL)は、モデルを新しい知識に適応させ、動的環境で堅牢性を達成するための効率的で持続可能なトレーニング戦略の開発に焦点を当てた進化するドメインです。
私たちの主な重点は、継続的なドメインに適応する前orainingにあります。これは、以前に学んだ知識を保持しながら、LLMSにさまざまなドメインから新しい情報を統合する機能を装備するために設計されたプロセスです。
既存の作業は、主にダウンストリームタスクまたはトレーニングドメインの限られた選択のために継続的な微調整に集中しているため、LLMの適応性を測定するように設計された新しいベンチマークを導入する新しいベンチマークを導入します。
さらに、学習の有効性と忘却に対するモデルサイズの影響、および新興ドメインの進行と類似性がこれらのモデル内の知識移転にどのように影響するかを調べます。
私たちの調査結果は、いくつかの重要な洞察を明らかにします:(i)継続的な事前トレーニングは、この作業で研究された<1.5bモデルを一貫して改善し、ドメイン適応よりも優れています。 (iii)小さいモデルは、学習と忘却の両方の最も重要なレートを示す継続的な事前トレーニングに特に敏感です(iv)継続的な前削減は、GPT-2ファミリーの下流タスクパフォ​​ーマンスをブーストします。 ドメインのシーケンスはセマンティックな類似性を示し、トレーニングドメインをランダム化すると、それ以外の場合はより良い転送と最終的なパフォーマンスにつながります。 私たちの研究は、LLMSのCLの新しいベンチマークを確立し、知識保持と多様なドメイン全体の移転のより現実的な評価を提供すると仮定します。

要約(オリジナル)

Continual learning (CL) in large language models (LLMs) is an evolving domain that focuses on developing efficient and sustainable training strategies to adapt models to emerging knowledge and achieve robustness in dynamic environments. Our primary emphasis is on continual domain-adaptive pretraining, a process designed to equip LLMs with the ability to integrate new information from various domains while retaining previously learned knowledge. Since existing works concentrate mostly on continual fine-tuning for a limited selection of downstream tasks or training domains, we introduce a new benchmark designed to measure the adaptability of LLMs to changing pretraining data landscapes. We further examine the impact of model size on learning efficacy and forgetting, as well as how the progression and similarity of emerging domains affect the knowledge transfer within these models. Our findings uncover several key insights: (i) continual pretraining consistently improves <1.5B models studied in this work and is also superior to domain adaptation, (ii) larger models always achieve better perplexity than smaller ones when continually pretrained on the same corpus, (iii) smaller models are particularly sensitive to continual pretraining, showing the most significant rates of both learning and forgetting, (iv) continual pretraining boosts downstream task performance of GPT-2 family, (v) continual pretraining enables LLMs to specialize better when the sequence of domains shows semantic similarity while randomizing training domains leads to better transfer and final performance otherwise. We posit that our research establishes a new benchmark for CL in LLMs, providing a more realistic evaluation of knowledge retention and transfer across diverse domains.

arxiv情報

著者 Çağatay Yıldız,Nishaanth Kanna Ravichandran,Nitin Sharma,Matthias Bethge,Beyza Ermis
発行日 2025-02-12 14:46:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク