OLMoE: Open Mixture-of-Experts Language Models

要約

OLMoEは、スパースなMoE(Mixture-of-Experts)を活用した、完全にオープンな最先端の言語モデルである。OLMoE-1B-7Bは70億(B)のパラメータを持つが、入力トークンあたり1Bしか使用しない。このモデルを5兆個のトークンで事前学習し、さらにOLMoE-1B-7B-Instructを作成するために適応させました。我々のモデルは、同様のアクティブパラメータを持つ全てのモデルを凌駕し、Llama2-13B-ChatやDeepSeekMoE-16Bのような大規模なモデルをも凌駕する。MoEのトレーニングに関する様々な実験を紹介し、高い特殊性を示す我々のモデルにおけるルーティングを分析し、モデルの重み、トレーニングデータ、コード、ログなど、我々の研究の全ての側面をオープンソース化する。

要約(オリジナル)

We introduce OLMoE, a fully open, state-of-the-art language model leveraging sparse Mixture-of-Experts (MoE). OLMoE-1B-7B has 7 billion (B) parameters but uses only 1B per input token. We pretrain it on 5 trillion tokens and further adapt it to create OLMoE-1B-7B-Instruct. Our models outperform all available models with similar active parameters, even surpassing larger ones like Llama2-13B-Chat and DeepSeekMoE-16B. We present various experiments on MoE training, analyze routing in our model showing high specialization, and open-source all aspects of our work: model weights, training data, code, and logs.

arxiv情報

著者 Niklas Muennighoff,Luca Soldaini,Dirk Groeneveld,Kyle Lo,Jacob Morrison,Sewon Min,Weijia Shi,Pete Walsh,Oyvind Tafjord,Nathan Lambert,Yuling Gu,Shane Arora,Akshita Bhagia,Dustin Schwenk,David Wadden,Alexander Wettig,Binyuan Hui,Tim Dettmers,Douwe Kiela,Ali Farhadi,Noah A. Smith,Pang Wei Koh,Amanpreet Singh,Hannaneh Hajishirzi
発行日 2025-03-03 01:25:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク