SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective Depth Up-Scaling

要約

107 億個のパラメーターを備えた大規模言語モデル (LLM) である SOLAR 10.7B を紹介し、さまざまな自然言語処理 (NLP) タスクで優れたパフォーマンスを実証します。
LLM を効率的にアップスケーリングする最近の取り組みに触発され、深さ方向のスケーリングと継続的な事前トレーニングを含む深度アップスケーリング (DUS) と呼ばれる LLM をスケーリングする方法を紹介します。
専門家の混合を使用する他の LLM アップスケーリング手法とは対照的に、DUS は効率的にトレーニングおよび推論するために複雑な変更を必要としません。
私たちは、DUS がシンプルでありながら、小規模な LLM から高性能な LLM をスケールアップするのに効果的であることを実験的に示します。
DUS モデルを基盤として、Mixtral-8x7B-Instruct を超える、命令追従機能向けに微調整されたバリアントである SOLAR 10.7B-Instruct も追加で紹介します。
SOLAR 10.7B は Apache 2.0 ライセンスに基づいて公開されており、LLM 分野での幅広いアクセスとアプリケーションを促進します。

要約(オリジナル)

We introduce SOLAR 10.7B, a large language model (LLM) with 10.7 billion parameters, demonstrating superior performance in various natural language processing (NLP) tasks. Inspired by recent efforts to efficiently up-scale LLMs, we present a method for scaling LLMs called depth up-scaling (DUS), which encompasses depthwise scaling and continued pretraining. In contrast to other LLM up-scaling methods that use mixture-of-experts, DUS does not require complex changes to train and inference efficiently. We show experimentally that DUS is simple yet effective in scaling up high-performance LLMs from small ones. Building on the DUS model, we additionally present SOLAR 10.7B-Instruct, a variant fine-tuned for instruction-following capabilities, surpassing Mixtral-8x7B-Instruct. SOLAR 10.7B is publicly available under the Apache 2.0 license, promoting broad access and application in the LLM field.

arxiv情報

著者 Dahyun Kim,Chanjun Park,Sanghoon Kim,Wonsung Lee,Wonho Song,Yunsu Kim,Hyeonwoo Kim,Yungi Kim,Hyeonju Lee,Jihoo Kim,Changbae Ahn,Seonghoon Yang,Sukyung Lee,Hyunbyung Park,Gyoungjin Gim,Mikyoung Cha,Hwalsuk Lee,Sunghun Kim
発行日 2023-12-29 01:51:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク