PolyPythias: Stability and Outliers across Fifty Language Model Pre-Training Runs

要約

言語モデルの安定性トレーニング前の安定性とダウンストリームパフォーマンスへの影響は依然として研究されています。
以前の研究は、トレーニングプロセスが、ランダムシードなどの初期条件のわずかな変動に応じて、かなり異なる結果をもたらすことができることを示しています。
重要なことに、研究コミュニティには、特にデコーダーのみの言語モデルの場合、トレーニング前の安定性を体系的に調査するのに十分なリソースとツールがまだ不足しています。
Pythia Model Suiteの45の新しいトレーニングランのセットであるPolypythiasを紹介します。5つのモデルサイズにわたって14mから410mのパラメーターにわたって9種類の新しいシードで、リリースする約7kの新しいチェックポイントが生まれます。
これらの新しい45トレーニングの実行を使用して、すでに利用可能な5に加えて、(i)下流のパフォーマンス、(ii)学習した言語表現、および(iii)トレーニングフェーズの出現において、シードによって決定されるさまざまな初期条件の影響、つまりパラメーターの初期化とデータ順序の影響を研究します。
一般的なスケーリング動作に加えて、分析は一般に、モデルサイズと初期条件の両方で非常に一貫したトレーニングダイナミクスを明らかにしています。
さらに、各モデルの新しいシードにより、外れ値トレーニングの実行を特定し、その特性を描写できます。
私たちの調査結果は、これらの方法を使用してトレーニングの安定性を予測する可能性を示しています。

要約(オリジナル)

The stability of language model pre-training and its effects on downstream performance are still understudied. Prior work shows that the training process can yield significantly different results in response to slight variations in initial conditions, e.g., the random seed. Crucially, the research community still lacks sufficient resources and tools to systematically investigate pre-training stability, particularly for decoder-only language models. We introduce the PolyPythias, a set of 45 new training runs for the Pythia model suite: 9 new seeds across 5 model sizes, from 14M to 410M parameters, resulting in about 7k new checkpoints that we release. Using these new 45 training runs, in addition to the 5 already available, we study the effects of different initial conditions determined by the seed — i.e., parameters’ initialisation and data order — on (i) downstream performance, (ii) learned linguistic representations, and (iii) emergence of training phases. In addition to common scaling behaviours, our analyses generally reveal highly consistent training dynamics across both model sizes and initial conditions. Further, the new seeds for each model allow us to identify outlier training runs and delineate their characteristics. Our findings show the potential of using these methods to predict training stability.

arxiv情報

著者 Oskar van der Wal,Pietro Lesci,Max Muller-Eberstein,Naomi Saphra,Hailey Schoelkopf,Willem Zuidema,Stella Biderman
発行日 2025-03-12 16:59:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク