Aquila2 Technical Report

要約

このペーパーでは、パラメータ サイズが 7、34、700 億の幅広いバイリンガル モデルで構成される Aquila2 シリーズを紹介します。
これらのモデルは、HeuriMentor (HM) という革新的なフレームワークに基づいてトレーニングされます。このフレームワークは、モデルの収束に関するリアルタイムの洞察を提供し、トレーニング プロセスとデータ管理を強化します。
HM システムは、アダプティブ トレーニング エンジン (ATE)、トレーニング ステート モニター (TSM)、およびデータ管理ユニット (DMU) で構成されており、モデルのトレーニングの進行状況を正確に監視し、データ分散の効率的な最適化を可能にして、トレーニングの効果を高めます。
広範な評価により、Aquila2 モデル シリーズは英語と中国語の両方のベンチマークで同等のパフォーマンスを発揮することが示されています。
具体的には、Aquila2-34B は、Int4 に量子化されたときにパフォーマンスがわずかに低下するだけです。
さらに、進行中の研究とアプリケーション開発をサポートするために、トレーニング コード (https://github.com/FlagOpen/FlagScale) とモデルの重み (https://github.com/FlagAI-Open/Aquila2) を公開しました。

要約(オリジナル)

This paper introduces the Aquila2 series, which comprises a wide range of bilingual models with parameter sizes of 7, 34, and 70 billion. These models are trained based on an innovative framework named HeuriMentor (HM), which offers real-time insights into model convergence and enhances the training process and data management. The HM System, comprising the Adaptive Training Engine (ATE), Training State Monitor (TSM), and Data Management Unit (DMU), allows for precise monitoring of the model’s training progress and enables efficient optimization of data distribution, thereby enhancing training effectiveness. Extensive evaluations show that the Aquila2 model series performs comparably well on both English and Chinese benchmarks. Specifically, Aquila2-34B demonstrates only a slight decrease in performance when quantized to Int4. Furthermore, we have made our training code (https://github.com/FlagOpen/FlagScale) and model weights (https://github.com/FlagAI-Open/Aquila2) publicly available to support ongoing research and the development of applications.

arxiv情報

著者 Bo-Wen Zhang,Liangdong Wang,Jijie Li,Shuhao Gu,Xinya Wu,Zhengduo Zhang,Boyan Gao,Yulong Ao,Guang Liu
発行日 2024-08-14 09:34:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク