CoLLiE: Collaborative Training of Large Language Models in an Efficient Way

要約

大規模言語モデル(LLM)は、幅広い自然言語処理タスクにおいてますます重要性を増している。オープンソースコミュニティのおかげで、事前に訓練されたモデルを利用できるようになり、これらのモデルを特定のアプリケーションに適合させて性能を向上させることが可能になりました。しかし、これらのモデルをトレーニングするために必要なリソースは膨大であるため、効率的なソリューションが必要である。本稿では、3次元並列処理、パラメータ効率微調整(PEFT)手法、およびLion、Adan、Sophia、LOMO、AdaLomoなどのオプティマイザを使用して、大規模言語モデルの協調学習を容易にする効率的なライブラリ、CoLLiEを紹介する。CoLLiEは、モジュール設計と包括的な機能により、効率性、使いやすさ、カスタマイズ性をバランスよく融合しています。CoLLiEは、事前トレーニングや微調整のシナリオにおいて、一般的なソリューションと比較して優れたトレーニング効率を実証しています。さらに、さまざまな最適化手法におけるモデルサイズとGPUメモリ消費量の相関の実証的評価、およびスループットの分析を行います。最後に、様々なオプティマイザとPEFT手法を、命令チューニングの文脈で包括的に比較します。CoLLiEはhttps://github.com/OpenLMLab/collie。

要約(オリジナル)

Large language models (LLMs) are increasingly pivotal in a wide range of natural language processing tasks. Access to pre-trained models, courtesy of the open-source community, has made it possible to adapt these models to specific applications for enhanced performance. However, the substantial resources required for training these models necessitate efficient solutions. This paper introduces CoLLiE, an efficient library that facilitates collaborative training of large language models using 3D parallelism, parameter-efficient fine-tuning (PEFT) methods, and optimizers such as Lion, Adan, Sophia, LOMO and AdaLomo. With its modular design and comprehensive functionality, CoLLiE offers a balanced blend of efficiency, ease of use, and customization. CoLLiE has proven superior training efficiency in comparison with prevalent solutions in pre-training and fine-tuning scenarios. Furthermore, we provide an empirical evaluation of the correlation between model size and GPU memory consumption under different optimization methods, as well as an analysis of the throughput. Lastly, we carry out a comprehensive comparison of various optimizers and PEFT methods within the instruction-tuning context. CoLLiE is available at https://github.com/OpenLMLab/collie.

arxiv情報

著者 Kai Lv,Shuo Zhang,Tianle Gu,Shuhao Xing,Jiawei Hong,Keyu Chen,Xiaoran Liu,Yuqing Yang,Honglin Guo,Tengxiao Liu,Yu Sun,Qipeng Guo,Hang Yan,Xipeng Qiu
発行日 2023-12-01 08:02:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク