2x Faster Language Model Pre-training via Masked Structural Growth

要約

【タイトル】マスクド構造成長を利用した2倍高速な言語モデルの事前学習

【要約】

– 大規模言語モデルの事前学習の加速化は、現在のNLP研究において重要な課題である。
– 本論文では、小さなTransformer構造から大きなものに進化しながら、事前学習をスピーディに進めることに焦点を当てている。
– 進化のスケジュールと演算子は、進化の2つの主な問題である。スケジュールに関しては、既存の研究で階層的な深さとフィードフォワード層の拡張が試みられているものの、各次元がスケジュールの効率に与える影響は未解決の問題である。演算子に関しては、既存の研究は新しい重みの初期化に依存し、strictな関数保存性を限定し、より進化したトレーニングダイナミクスの最適化を制限している。
– これらの問題に対処するために、マスクド構造成長(MSG)を提案する。これは、すべての可能な次元を含む成長スケジュールと、新しい重みの初期化に依存しないstrictly function-preservingな成長演算子を含む。
– 実験では、MSGは関連する研究よりも大幅に高速化され、Bert-baseの場合には80%、Bert-largeの場合には120%、事前学習が速くなることが示された。さらに、MSGは同時にファインチューニングの性能も向上させることができる。

要約(オリジナル)

Acceleration of large language model pre-training is a critical issue in present NLP research. In this paper, we focus on speeding up pre-training by progressively growing from a small Transformer structure to a large one. There are two main research problems related to progressive growth: growth schedule and growth operator. For growth schedule, existing work has explored multi-stage expansion of depth and feedforward layers. However, the impact of each dimension on the schedule’s efficiency is still an open question. For growth operator, existing work relies on the initialization of new weights to inherit knowledge, and achieve only non-strict function preservation, limiting further optimization of training dynamics. To address these issues, we propose Masked Structural Growth (MSG), including growth schedules involving all possible dimensions and strictly function-preserving growth operators that is independent of the initialization of new weights. Experiments show that MSG is significantly faster than related work: we achieve a speed-up of 80% for Bert-base and 120% for Bert-large pre-training. Moreover, MSG is able to improve fine-tuning performances at the same time.

arxiv情報

著者 Yiqun Yao,Zheng Zhang,Jing Li,Yequan Wang
発行日 2023-05-04 14:28:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク