MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series

要約

大規模言語モデル (LLM) は近年大きな進歩を遂げ、さまざまなタスクにわたって前例のないパフォーマンスを達成しました。
ただし、商業的利益のため、GPT、Gemini、Claude などの最も競争力の高いモデルは、トレーニングの詳細を公開せずに独自のインターフェイスの背後でゲート制御されています。
最近、多くの教育機関が、既存のクローズドソース LLM に匹敵する、LLaMA-3 のようないくつかの強力な LLM をオープンソース化しています。
ただし、モデルの重みのみが提供され、ほとんどの詳細 (中間チェックポイント、事前トレーニング コーパス、トレーニング コードなど) は非公開です。
LLM の透明性を向上させるために、研究コミュニティは真にオープンな LLM (例: Pythia、Amber、OLMo) をオープンソース化するために形成され、より詳細な情報 (例: 事前トレーニング コーパスやトレーニング コード) が提供されています。
これらのモデルは、長所、短所、偏見、リスクを含む大規模モデルの科学的研究を大幅に進歩させました。
ただし、推論、知識、およびコーディングのタスクに関する既存の真にオープンな LLM は、同様のモデル サイズを備えた既存の最先端の LLM よりも依然として劣っていることがわかります。
この目的を達成するために、私たちは MAP-Neo をオープンソースにしました。これは、4.5T の高品質トークンでゼロからトレーニングされた 70 億個のパラメーターを備えた、高機能で透明性の高いバイリンガル言語モデルです。
当社の MAP-Neo は、既存の最先端 LLM と比較して同等のパフォーマンスを備えた初の完全にオープンソースのバイリンガル LLM です。
さらに、MAP-Neo を再現するためにすべての詳細をオープンソースにし、クリーン化されたトレーニング前コーパス、データ クリーニング パイプライン、チェックポイント、適切に最適化されたトレーニング/評価フレームワークが提供されます。
最後に、当社の MAP-Neo がオープンな研究コミュニティを強化および強化し、LLM のさらなる改善を促進するために、より多くの革新と創造性を刺激することを願っています。

要約(オリジナル)

Large Language Models (LLMs) have made great strides in recent years to achieve unprecedented performance across different tasks. However, due to commercial interest, the most competitive models like GPT, Gemini, and Claude have been gated behind proprietary interfaces without disclosing the training details. Recently, many institutions have open-sourced several strong LLMs like LLaMA-3, comparable to existing closed-source LLMs. However, only the model’s weights are provided with most details (e.g., intermediate checkpoints, pre-training corpus, and training code, etc.) being undisclosed. To improve the transparency of LLMs, the research community has formed to open-source truly open LLMs (e.g., Pythia, Amber, OLMo), where more details (e.g., pre-training corpus and training code) are being provided. These models have greatly advanced the scientific study of these large models including their strengths, weaknesses, biases and risks. However, we observe that the existing truly open LLMs on reasoning, knowledge, and coding tasks are still inferior to existing state-of-the-art LLMs with similar model sizes. To this end, we open-source MAP-Neo, a highly capable and transparent bilingual language model with 7B parameters trained from scratch on 4.5T high-quality tokens. Our MAP-Neo is the first fully open-sourced bilingual LLM with comparable performance compared to existing state-of-the-art LLMs. Moreover, we open-source all details to reproduce our MAP-Neo, where the cleaned pre-training corpus, data cleaning pipeline, checkpoints, and well-optimized training/evaluation framework are provided. Finally, we hope our MAP-Neo will enhance and strengthen the open research community and inspire more innovations and creativities to facilitate the further improvements of LLMs.

arxiv情報

著者 Ge Zhang,Scott Qu,Jiaheng Liu,Chenchen Zhang,Chenghua Lin,Chou Leuang Yu,Danny Pan,Esther Cheng,Jie Liu,Qunshu Lin,Raven Yuan,Tuney Zheng,Wei Pang,Xinrun Du,Yiming Liang,Yinghao Ma,Yizhi Li,Ziyang Ma,Bill Lin,Emmanouil Benetos,Huan Yang,Junting Zhou,Kaijing Ma,Minghao Liu,Morry Niu,Noah Wang,Quehry Que,Ruibo Liu,Sine Liu,Shawn Guo,Soren Gao,Wangchunshu Zhou,Xinyue Zhang,Yizhi Zhou,Yubo Wang,Yuelin Bai,Yuhan Zhang,Yuxiang Zhang,Zenith Wang,Zhenzhu Yang,Zijian Zhao,Jiajun Zhang,Wanli Ouyang,Wenhao Huang,Wenhu Chen
発行日 2024-07-10 16:55:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク