Small Language Models: Survey, Measurements, and Insights

要約

小言語モデル(SLM)は、最新のスマートデバイスでの広範な採用にもかかわらず、主にデータセンターやクラウド環境に展開されている大規模な言語モデル(LLM)のカウンターパートと比較して、学問的な注目を大幅に受けていません。
研究者は、人工的な一般情報を追求するためにLLMの能力を改善し続けていますが、SLM Researchは、マシンインテリジェンスをよりアクセスしやすく、手頃で、日常のタスクに効率的にすることを目指しています。
100m-5Bパラメーターを備えたトランスベースのデコーダーのみの言語モデルに焦点を当て、70の最先端のオープンソースSLMを調査し、アーキテクチャ、トレーニングデータセット、トレーニングアルゴリズムの3つの軸にわたる技術革新を分析します。
さらに、常識的な推論、コンテキスト学習、数学、コーディングなど、さまざまなドメインでそれらの能力を評価します。
デバイス上のランタイムコストに関するさらなる洞察を得るために、推論の遅延とメモリフットプリントをベンチマークします。
ベンチマークデータの詳細な分析を通じて、この分野での研究を進めるための貴重な洞察を提供します。

要約(オリジナル)

Small language models (SLMs), despite their widespread adoption in modern smart devices, have received significantly less academic attention compared to their large language model (LLM) counterparts, which are predominantly deployed in data centers and cloud environments. While researchers continue to improve the capabilities of LLMs in the pursuit of artificial general intelligence, SLM research aims to make machine intelligence more accessible, affordable, and efficient for everyday tasks. Focusing on transformer-based, decoder-only language models with 100M-5B parameters, we survey 70 state-of-the-art open-source SLMs, analyzing their technical innovations across three axes: architectures, training datasets, and training algorithms. In addition, we evaluate their capabilities in various domains, including commonsense reasoning, in-context learning, mathematics, and coding. To gain further insight into their on-device runtime costs, we benchmark their inference latency and memory footprints. Through in-depth analysis of our benchmarking data, we offer valuable insights to advance research in this field.

arxiv情報

著者 Zhenyan Lu,Xiang Li,Dongqi Cai,Rongjie Yi,Fangming Liu,Xiwen Zhang,Nicholas D. Lane,Mengwei Xu
発行日 2025-02-25 13:48:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク