要約
107 億個のパラメーターを備えた大規模言語モデル (LLM) である SOLAR 10.7B を紹介し、さまざまな自然言語処理 (NLP) タスクで優れたパフォーマンスを実証します。
LLM を効率的にアップスケーリングする最近の取り組みに触発され、深さ方向のスケーリングと継続的な事前トレーニングを含む深度アップスケーリング (DUS) と呼ばれる LLM をスケーリングする方法を紹介します。
専門家の混合を使用する他の LLM アップスケーリング手法とは対照的に、DUS は効率的にトレーニングおよび推論するために複雑な変更を必要としません。
私たちは、DUS がシンプルでありながら、小規模な LLM から高性能な LLM をスケールアップするのに効果的であることを実験的に示します。
DUS モデルを基盤として、Mixtral-8x7B-Instruct を超える、命令追従機能向けに微調整されたバリアントである SOLAR 10.7B-Instruct も追加で紹介します。
SOLAR 10.7B は Apache 2.0 ライセンスに基づいて公開されており、LLM 分野での幅広いアクセスとアプリケーションを促進します。
要約(オリジナル)
We introduce SOLAR 10.7B, a large language model (LLM) with 10.7 billion parameters, demonstrating superior performance in various natural language processing (NLP) tasks. Inspired by recent efforts to efficiently up-scale LLMs, we present a method for scaling LLMs called depth up-scaling (DUS), which encompasses depthwise scaling and continued pretraining. In contrast to other LLM up-scaling methods that use mixture-of-experts, DUS does not require complex changes to train and inference efficiently. We show experimentally that DUS is simple yet effective in scaling up high-performance LLMs from small ones. Building on the DUS model, we additionally present SOLAR 10.7B-Instruct, a variant fine-tuned for instruction-following capabilities, surpassing Mixtral-8x7B-Instruct. SOLAR 10.7B is publicly available under the Apache 2.0 license, promoting broad access and application in the LLM field.
arxiv情報
| 著者 | Dahyun Kim,Chanjun Park,Sanghoon Kim,Wonsung Lee,Wonho Song,Yunsu Kim,Hyeonwoo Kim,Yungi Kim,Hyeonju Lee,Jihoo Kim,Changbae Ahn,Seonghoon Yang,Sukyung Lee,Hyunbyung Park,Gyoungjin Gim,Mikyoung Cha,Hwalsuk Lee,Sunghun Kim |
| 発行日 | 2023-12-29 01:51:29+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google