要約
このペーパーでは、Hunyuan-Large について紹介します。これは現在最大のオープンソース Transformer ベースの専門家混合モデルであり、合計 3,890 億個のパラメータと 520 億個のアクティベーション パラメータを備え、最大 256,000 個のトークンを処理できます。
私たちは、言語の理解と生成、論理的推論、数学的問題解決、コーディング、長いコンテキスト、集約タスクなどのさまざまなベンチマークにわたって、Hunyuan-Large の優れたパフォーマンスを徹底的に評価しています。LLama3.1-70B を上回り、同等のパフォーマンスを示しています。
大幅に大きい LLama3.1-405B モデルと比較した場合。
Hunyuan-Large の主な実践には、以前の文献よりも桁違いに大きい大規模な合成データ、混合エキスパート ルーティング戦略、キーと値のキャッシュ圧縮技術、およびエキスパート固有の学習率戦略が含まれます。
さらに、エキスパートの混合モデルのスケーリング則と学習率スケジュールも調査し、将来のモデル開発と最適化のための貴重な洞察とガイダンスを提供します。
Hunyuan-Large のコードとチェックポイントは、将来のイノベーションとアプリケーションを促進するためにリリースされています。
コード: https://github.com/Tencent/Hunyuan-Large モデル: https://huggingface.co/tencent/Tencent-Hunyuan-Large
要約(オリジナル)
In this paper, we introduce Hunyuan-Large, which is currently the largest open-source Transformer-based mixture of experts model, with a total of 389 billion parameters and 52 billion activation parameters, capable of handling up to 256K tokens. We conduct a thorough evaluation of Hunyuan-Large’s superior performance across various benchmarks including language understanding and generation, logical reasoning, mathematical problem-solving, coding, long-context, and aggregated tasks, where it outperforms LLama3.1-70B and exhibits comparable performance when compared to the significantly larger LLama3.1-405B model. Key practice of Hunyuan-Large include large-scale synthetic data that is orders larger than in previous literature, a mixed expert routing strategy, a key-value cache compression technique, and an expert-specific learning rate strategy. Additionally, we also investigate the scaling laws and learning rate schedule of mixture of experts models, providing valuable insights and guidances for future model development and optimization. The code and checkpoints of Hunyuan-Large are released to facilitate future innovations and applications. Codes: https://github.com/Tencent/Hunyuan-Large Models: https://huggingface.co/tencent/Tencent-Hunyuan-Large
arxiv情報
著者 | Xingwu Sun,Yanfeng Chen,Yiqing Huang,Ruobing Xie,Jiaqi Zhu,Kai Zhang,Shuaipeng Li,Zhen Yang,Jonny Han,Xiaobo Shu,Jiahao Bu,Zhongzhi Chen,Xuemeng Huang,Fengzong Lian,Saiyong Yang,Jianfeng Yan,Yuyuan Zeng,Xiaoqin Ren,Chao Yu,Lulu Wu,Yue Mao,Jun Xia,Tao Yang,Suncong Zheng,Kan Wu,Dian Jiao,Jinbao Xue,Xipeng Zhang,Decheng Wu,Kai Liu,Dengpeng Wu,Guanghui Xu,Shaohua Chen,Shuang Chen,Xiao Feng,Yigeng Hong,Junqiang Zheng,Chengcheng Xu,Zongwei Li,Xiong Kuang,Jianglu Hu,Yiqi Chen,Yuchi Deng,Guiyang Li,Ao Liu,Chenchen Zhang,Shihui Hu,Zilong Zhao,Zifan Wu,Yao Ding,Weichao Wang,Han Liu,Roberts Wang,Hao Fei,Peijie Yu,Ze Zhao,Xun Cao,Hai Wang,Fusheng Xiang,Mengyuan Huang,Zhiyuan Xiong,Bin Hu,Xuebin Hou,Lei Jiang,Jianqiang Ma,Jiajia Wu,Yaping Deng,Yi Shen,Qian Wang,Weijie Liu,Jie Liu,Meng Chen,Liang Dong,Weiwen Jia,Hu Chen,Feifei Liu,Rui Yuan,Huilin Xu,Zhenxiang Yan,Tengfei Cao,Zhichao Hu,Xinhua Feng,Dong Du,Tinghao Yu,Yangyu Tao,Feng Zhang,Jianchen Zhu,Chengzhong Xu,Xirui Li,Chong Zha,Wen Ouyang,Yinben Xia,Xiang Li,Zekun He,Rongpeng Chen,Jiawei Song,Ruibin Chen,Fan Jiang,Chongqing Zhao,Bo Wang,Hao Gong,Rong Gan,Winston Hu,Zhanhui Kang,Yong Yang,Yuhong Liu,Di Wang,Jie Jiang |
発行日 | 2024-11-06 09:15:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google