要約
OLMoEは、スパースなMoE(Mixture-of-Experts)を活用した、完全にオープンな最先端の言語モデルである。OLMoE-1B-7Bは70億(B)のパラメータを持つが、入力トークンあたり1Bしか使用しない。このモデルを5兆個のトークンで事前学習し、さらにOLMoE-1B-7B-Instructを作成するために適応させました。我々のモデルは、同様のアクティブパラメータを持つ全てのモデルを凌駕し、Llama2-13B-ChatやDeepSeekMoE-16Bのような大規模なモデルをも凌駕する。MoEのトレーニングに関する様々な実験を紹介し、高い特殊性を示す我々のモデルにおけるルーティングを分析し、モデルの重み、トレーニングデータ、コード、ログなど、我々の研究の全ての側面をオープンソース化する。
要約(オリジナル)
We introduce OLMoE, a fully open, state-of-the-art language model leveraging sparse Mixture-of-Experts (MoE). OLMoE-1B-7B has 7 billion (B) parameters but uses only 1B per input token. We pretrain it on 5 trillion tokens and further adapt it to create OLMoE-1B-7B-Instruct. Our models outperform all available models with similar active parameters, even surpassing larger ones like Llama2-13B-Chat and DeepSeekMoE-16B. We present various experiments on MoE training, analyze routing in our model showing high specialization, and open-source all aspects of our work: model weights, training data, code, and logs.
arxiv情報
著者 | Niklas Muennighoff,Luca Soldaini,Dirk Groeneveld,Kyle Lo,Jacob Morrison,Sewon Min,Weijia Shi,Pete Walsh,Oyvind Tafjord,Nathan Lambert,Yuling Gu,Shane Arora,Akshita Bhagia,Dustin Schwenk,David Wadden,Alexander Wettig,Binyuan Hui,Tim Dettmers,Douwe Kiela,Ali Farhadi,Noah A. Smith,Pang Wei Koh,Amanpreet Singh,Hannaneh Hajishirzi |
発行日 | 2025-03-03 01:25:46+00:00 |
arxivサイト | arxiv_id(pdf) |