nanoT5: A PyTorch Framework for Pre-training and Fine-tuning T5-style Models with Limited Resources

要約

T5 のような最先端の言語モデルは NLP 環境に革命をもたらしましたが、その計算需要が研究コミュニティの大部分の妨げとなっています。
この課題に対処するために、T5 モデルの事前トレーニングと微調整を効率的に行うために特別に最適化された PyTorch フレームワークである nanoT5 を紹介します。
nanoT5 では、オプティマイザーの違いから洞察を引き出し、効率を優先することで、パフォーマンスを損なうことなく、T5-Base モデルを単一の GPU でわずか 16 時間で事前トレーニングできます。
このオープンソース フレームワークの導入により、言語モデリング研究へのアクセシビリティを拡大し、よりユーザー フレンドリーな T5 (エンコーダ/デコーダ) 実装を求めるコミュニティの要求に応えたいと考えています。
私たちは、構成、コードベース、事前トレーニングの洞察、事前トレーニングされたモデルなどの貢献を一般に公開しています。

要約(オリジナル)

State-of-the-art language models like T5 have revolutionized the NLP landscape, but their computational demands hinder a large portion of the research community. To address this challenge, we present nanoT5, a specially-optimized PyTorch framework for efficient pre-training and fine-tuning of T5 models. Drawing on insights from optimizer differences and prioritizing efficiency, nanoT5 allows a T5-Base model to be pre-trained on a single GPU in just 16 hours, without any loss in performance. With the introduction of this open-source framework, we hope to widen the accessibility to language modelling research and cater to the community’s demand for more user-friendly T5 (Encoder-Decoder) implementations. We make our contributions, including configurations, codebase, pre-training insights, and pre-trained models, available to the public.

arxiv情報

著者 Piotr Nawrot
発行日 2023-10-24 14:53:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク