The interplay between domain specialization and model size

要約

言語モデルのスケーリング法則は、多くの場合、ゼロからトレーニングのために最適なモデルサイズとトークンカウントを見つけることに焦点を合わせています。
ただし、この最適なバランスを達成するには、ランダムに開始された重みからモデルをトレーニングする場合、大規模なデータ需要が原因で、重要な計算リソースが必要です。
継続的な事前トレーニングは、費用対効果の高い代替品を提供し、事前に守られたモデルからの計算投資を活用して、広範な新しいデータを必要とせずに新しい知識を組み込んでいます。
最近の調査結果は、データの品質がスケーリング法の定数に影響し、それによって最適なパラメータートークン割り当て比を変更することを示唆しています。
この洞察に基づいて、計算されたシナリオの下での継続的な事前販売中のドメインの専門化とモデルサイズの相互作用を調査します。
私たちの目標は、このシナリオの最適なトレーニング体制を特定し、さまざまなモデルサイズとドメインで一般化できるこの相互作用のパターンを検出することです。
一般的なトレーニングと専門的なトレーニングを比較するために、Webベースのデータセットをフィルタリングして、法的、医療、会計の3つのドメインからデータを抽出しました。
フィルター処理されていないデータセットとフィルター処理されたデータセットの両方で、1.5B、3B、7B、および14Bパラメーターを備えたモデルを事前に処理し、ドメイン固有の試験でパフォーマンスを評価しました。
結果は、モデルサイズが増加すると、専門モデルが一般的なモデルよりも優れていることを示しています。
さらに、彼らの計算効率の増大は、以前に学んだ知識の忘れを減らすことにつながります。

要約(オリジナル)

Scaling laws for language models have often focused on finding the optimal model size and token count for training from scratch. However, achieving this optimal balance requires significant compute resources due to the extensive data demands when training models from randomly-initialized weights. Continued pretraining offers a cost-effective alternative, leveraging the compute investment from pretrained models to incorporate new knowledge without requiring extensive new data. Recent findings suggest that data quality influences constants in scaling laws, thereby altering the optimal parameter-token allocation ratio. Building on this insight, we investigate the interplay between domain specialization and model size during continued pretraining under compute-constrained scenarios. Our goal is to identify an optimal training regime for this scenario and detect patterns in this interplay that can be generalized across different model sizes and domains. To compare general and specialized training, we filtered a web-based dataset to extract data from three domains: legal, medical, and accounting. We pretrained models with 1.5B, 3B, 7B, and 14B parameters on both the unfiltered and filtered datasets, then evaluated their performance on domain-specific exams. Results show that as model size increases, specialized models outperform general models while requiring less training compute. Additionally, their growing compute efficiency leads to reduced forgetting of previously learned knowledge.

arxiv情報

著者 Roseval Malaquias Junior,Ramon Pires,Thales Sales Almeida,Kenzo Sakiyama,Roseli A. F. Romero,Rodrigo Nogueira
発行日 2025-03-07 16:48:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク