nanoT5: A PyTorch Framework for Pre-training and Fine-tuning T5-style Models with Limited Resources

要約

T5 のような最先端の言語モデルは NLP 環境に革命をもたらしましたが、その計算需要が研究コミュニティの大部分の妨げとなっています。
この課題に対処するために、T5 モデルの事前トレーニングと微調整を効率的に行うために特別に最適化された PyTorch フレームワークである nanoT5 を紹介します。
nanoT5 では、オプティマイザーの違いから洞察を引き出し、効率を優先することで、パフォーマンスを損なうことなく、T5-Base モデルを単一の GPU でわずか 16 時間で事前トレーニングできます。
このオープンソース フレームワークの導入により、言語モデリング研究へのアクセシビリティを拡大し、よりユーザー フレンドリーな T5 (エンコーダ/デコーダ) 実装を求めるコミュニティの要求に応えたいと考えています。
構成、コードベース、ソフトウェア/ハードウェアの洞察、事前トレーニングされたモデルを含む私たちの貢献は一般に公開されており、NLP における研究のアクセシビリティとリソースの制約のバランスを取ることを目指しています。

要約(オリジナル)

State-of-the-art language models like T5 have revolutionized the NLP landscape, but their computational demands hinder a large portion of the research community. To address this challenge, we present nanoT5, a specially-optimized PyTorch framework for efficient pre-training and fine-tuning of T5 models. Drawing on insights from optimizer differences and prioritizing efficiency, nanoT5 allows a T5-Base model to be pre-trained on a single GPU in just 16 hours, without any loss in performance. With the introduction of this open-source framework, we hope to widen the accessibility to language modelling research and cater to the community’s demand for more user-friendly T5 (Encoder-Decoder) implementations. Our contributions, including configurations, codebase, software/hardware insights, and pre-trained models, are available to the public, aiming to strike a balance between research accessibility and resource constraints in NLP.

arxiv情報

著者 Piotr Nawrot
発行日 2023-09-05 16:35:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク