要約
このレポートでは、大規模な言語モデルと大規模なマルチモーダル モデルの最新の追加である Qwen2 シリーズを紹介します。
私たちは、5 億から 720 億のパラメーター範囲を網羅する、基礎的で命令調整された言語モデルの包括的なスイートをリリースし、高密度モデルと専門家混合モデルを特徴としています。
Qwen2 は、前身の Qwen1.5 を含む以前のオープンウェイト モデルのほとんどを上回り、言語理解、生成、多言語習熟度、コーディング、数学、推論に関するさまざまなベンチマークにわたって独自のモデルと比較して競争力のあるパフォーマンスを示します。
フラッグシップ モデルである Qwen2-72B は、MMLU で 84.2、GPQA で 37.9、HumanEval で 64.6、GSM8K で 89.5、ベース言語モデルとしての BBH で 82.4 という驚くべきパフォーマンスを示します。
命令調整されたバリアントである Qwen2-72B-Instruct は、MT-Bench で 9.1、Arena-Hard で 48.1、LiveCodeBench で 35.7 を達成しました。
さらに、Qwen2 は、英語、中国語、スペイン語、フランス語、ドイツ語、アラビア語、ロシア語、韓国語、日本語、タイ語、ベトナム語など、約 30 の言語に堪能な堅牢な多言語機能を実証しており、その多用途性と世界的な展開を強調しています。
コミュニティのイノベーションとアクセシビリティを促進するために、Qwen2 モデルの重みを Hugging Face1 および ModelScope2 で公開し、サンプル コードを含む補足資料を GitHub3 で公開しました。
これらのプラットフォームには、量子化、微調整、展開のためのリソースも含まれており、幅広いアプリケーションや研究活動を促進します。
要約(オリジナル)
This report introduces the Qwen2 series, the latest addition to our large language models and large multimodal models. We release a comprehensive suite of foundational and instruction-tuned language models, encompassing a parameter range from 0.5 to 72 billion, featuring dense models and a Mixture-of-Experts model. Qwen2 surpasses most prior open-weight models, including its predecessor Qwen1.5, and exhibits competitive performance relative to proprietary models across diverse benchmarks on language understanding, generation, multilingual proficiency, coding, mathematics, and reasoning. The flagship model, Qwen2-72B, showcases remarkable performance: 84.2 on MMLU, 37.9 on GPQA, 64.6 on HumanEval, 89.5 on GSM8K, and 82.4 on BBH as a base language model. The instruction-tuned variant, Qwen2-72B-Instruct, attains 9.1 on MT-Bench, 48.1 on Arena-Hard, and 35.7 on LiveCodeBench. Moreover, Qwen2 demonstrates robust multilingual capabilities, proficient in approximately 30 languages, spanning English, Chinese, Spanish, French, German, Arabic, Russian, Korean, Japanese, Thai, Vietnamese, and more, underscoring its versatility and global reach. To foster community innovation and accessibility, we have made the Qwen2 model weights openly available on Hugging Face1 and ModelScope2, and the supplementary materials including example code on GitHub3. These platforms also include resources for quantization, fine-tuning, and deployment, facilitating a wide range of applications and research endeavors.
arxiv情報
著者 | An Yang,Baosong Yang,Binyuan Hui,Bo Zheng,Bowen Yu,Chang Zhou,Chengpeng Li,Chengyuan Li,Dayiheng Liu,Fei Huang,Guanting Dong,Haoran Wei,Huan Lin,Jialong Tang,Jialin Wang,Jian Yang,Jianhong Tu,Jianwei Zhang,Jianxin Ma,Jin Xu,Jingren Zhou,Jinze Bai,Jinzheng He,Junyang Lin,Kai Dang,Keming Lu,Keqin Chen,Kexin Yang,Mei Li,Mingfeng Xue,Na Ni,Pei Zhang,Peng Wang,Ru Peng,Rui Men,Ruize Gao,Runji Lin,Shijie Wang,Shuai Bai,Sinan Tan,Tianhang Zhu,Tianhao Li,Tianyu Liu,Wenbin Ge,Xiaodong Deng,Xiaohuan Zhou,Xingzhang Ren,Xinyu Zhang,Xipin Wei,Xuancheng Ren,Yang Fan,Yang Yao,Yichang Zhang,Yu Wan,Yunfei Chu,Zeyu Cui,Zhenru Zhang,Zhihao Fan |
発行日 | 2024-07-15 12:35:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google