要約
履歴Webデータでトレーニングされた大規模な言語モデル(LLM)は必然的に時代遅れになります。
新しいデータが利用可能になると、LLMの評価戦略と更新方法を調査します。
114個のダンプの一般的なクロール(CC)のダンプから派生したLLMの時間継続的な事前削除のためのWebスケールデータセットを紹介します。
また、一般的なCCデータと特定のドメイン(Wikipedia、stackexchange、およびコードドキュメント)の両方で時間階段化された評価を設計し、過去の知識を保持しながら、さまざまな継続的な学習方法が新しいデータにどれだけ適応するかを評価します。
我々の調査結果は、一般的なCCデータでは、古いデータの固定比率のリプレイと組み合わせた自己回帰メタスケジュールが、ゼロからの再トレーニングに匹敵する保有損失を達成できるが、計算が大幅に少ない(2.6倍)ことを実証していることが示されています。
ただし、新しいデータを組み込むことと古いデータのリプレイとの間の最適なバランスは、リプレイが一般的なWebデータを忘れないようにするために重要であるため、特定のドメインではそれほど重要ではありません。
要約(オリジナル)
Large Language Models (LLMs) trained on historical web data inevitably become outdated. We investigate evaluation strategies and update methods for LLMs as new data becomes available. We introduce a web-scale dataset for time-continual pretraining of LLMs derived from 114 dumps of Common Crawl (CC) – orders of magnitude larger than previous continual language modeling benchmarks. We also design time-stratified evaluations across both general CC data and specific domains (Wikipedia, StackExchange, and code documentation) to assess how well various continual learning methods adapt to new data while retaining past knowledge. Our findings demonstrate that, on general CC data, autoregressive meta-schedules combined with a fixed-ratio replay of older data can achieve comparable held-out loss to re-training from scratch, while requiring significantly less computation (2.6x). However, the optimal balance between incorporating new data and replaying old data differs as replay is crucial to avoid forgetting on generic web data but less so on specific domains.
arxiv情報
著者 | Jeffrey Li,Mohammadreza Armandpour,Iman Mirzadeh,Sachin Mehta,Vaishaal Shankar,Raviteja Vemulapalli,Samy Bengio,Oncel Tuzel,Mehrdad Farajtabar,Hadi Pouransari,Fartash Faghri |
発行日 | 2025-05-08 16:22:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google