What is the Role of Small Models in the LLM Era: A Survey

要約

大規模言語モデル (LLM) は汎用人工知能 (AGI) の進歩において大きな進歩を遂げ、GPT-4 や LLaMA-405B などのますます大規模なモデルの開発につながりました。
ただし、モデルのサイズをスケールアップすると、計算コストとエネルギー消費が飛躍的に増加するため、リソースが限られている学術研究者や企業にとって、これらのモデルは実用的ではなくなります。
同時に、スモール モデル (SM) は実際の環境で頻繁に使用されていますが、その重要性は現在過小評価されています。
これは、LLM の時代における小規模モデルの役割に関する重要な疑問を引き起こしますが、このトピックは先行研究ではあまり注目されていませんでした。
この研究では、協力と競争という 2 つの重要な観点から LLM と SM の関係を系統的に検証します。
この調査が実務者に貴重な洞察を提供し、小規模モデルの貢献に対する理解を深め、計算リソースのより効率的な使用を促進することを願っています。
コードは https://github.com/tigerchen52/role_of_small_models で入手できます。

要約(オリジナル)

Large Language Models (LLMs) have made significant progress in advancing artificial general intelligence (AGI), leading to the development of increasingly large models such as GPT-4 and LLaMA-405B. However, scaling up model sizes results in exponentially higher computational costs and energy consumption, making these models impractical for academic researchers and businesses with limited resources. At the same time, Small Models (SMs) are frequently used in practical settings, although their significance is currently underestimated. This raises important questions about the role of small models in the era of LLMs, a topic that has received limited attention in prior research. In this work, we systematically examine the relationship between LLMs and SMs from two key perspectives: Collaboration and Competition. We hope this survey provides valuable insights for practitioners, fostering a deeper understanding of the contribution of small models and promoting more efficient use of computational resources. The code is available at https://github.com/tigerchen52/role_of_small_models

arxiv情報

著者 Lihu Chen,Gaël Varoquaux
発行日 2024-09-12 15:04:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク