要約
Languini Kitchen は、限られた計算リソースを持つ研究者が言語モデリングの分野に有意義に貢献できるように設計された研究集団およびコードベースの両方として機能します。
アクセラレータ時間で測定された同等のコンピューティングに基づいてモデルの比較を可能にする実験プロトコルを導入します。
モデルがトレーニングされるトークンの数は、モデルのスループットと選択したコンピューティング クラスによって定義されます。
特に、このアプローチでは、パラメータ全体や浮動小数点演算に影響を与える重要なハイパーパラメータの制約が回避されます。
評価のために、品質、多様性、文書の長さの点で既存の学術ベンチマークを上回る、既存の大規模で多様かつ高品質な書籍データセットを前処理します。
その上で、さまざまなレベルのコンピューティングでの実験を通じて推定された経験的なスケーリング傾向に基づいてメソッドを比較します。
この研究では、2 つのベースライン モデルも提供しています。GPT-2 アーキテクチャから派生したフィードフォワード モデルと、10 倍のスループットを備えた新しい LSTM の形式のリカレント モデルです。
GPT ベースラインはコンピューティングのすべてのレベルにわたってより優れた複雑性を実現しますが、LSTM ベースラインは予測可能でより好ましいスケーリング則を示します。
これは、スループットが向上し、テストの複雑さを同様に軽減するために必要なトレーニング トークンの数が少なくなったためです。
両方のモデルのスケーリング則を推定すると、およそ 50,000 アクセラレータ時間で交差する結果になります。
私たちは、この研究が有意義で再現可能な言語モデリング研究の基礎として役立つことを願っています。
要約(オリジナル)
The Languini Kitchen serves as both a research collective and codebase designed to empower researchers with limited computational resources to contribute meaningfully to the field of language modelling. We introduce an experimental protocol that enables model comparisons based on equivalent compute, measured in accelerator hours. The number of tokens on which a model is trained is defined by the model’s throughput and the chosen compute class. Notably, this approach avoids constraints on critical hyperparameters which affect total parameters or floating-point operations. For evaluation, we pre-process an existing large, diverse, and high-quality dataset of books that surpasses existing academic benchmarks in quality, diversity, and document length. On it, we compare methods based on their empirical scaling trends which are estimated through experiments at various levels of compute. This work also provides two baseline models: a feed-forward model derived from the GPT-2 architecture and a recurrent model in the form of a novel LSTM with ten-fold throughput. While the GPT baseline achieves better perplexity throughout all our levels of compute, our LSTM baseline exhibits a predictable and more favourable scaling law. This is due to the improved throughput and the need for fewer training tokens to achieve the same decrease in test perplexity. Extrapolating the scaling laws leads of both models results in an intersection at roughly 50,000 accelerator hours. We hope this work can serve as the foundation for meaningful and reproducible language modelling research.
arxiv情報
著者 | Aleksandar Stanić,Dylan Ashley,Oleg Serikov,Louis Kirsch,Francesco Faccio,Jürgen Schmidhuber,Thomas Hofmann,Imanol Schlag |
発行日 | 2023-09-20 10:31:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google