On the Origin of LLMs: An Evolutionary Tree and Graph for 15,821 Large Language Models

要約

2022 年後半以降、大規模言語モデル (LLM) が非常に目立つようになり、ChatGPT や Bard などの LLM は数百万のユーザーを獲得しています。
毎週何百もの新しい LLM が発表され、その多くは機械学習モデルとデータセットのリポジトリである Hugging Face に保管されています。
現在までに、約 16,000 のテキスト生成モデルがサイトにアップロードされています。
LLM が大量に流入していることを考えると、どの LLM バックボーン、設定、トレーニング方法、ファミリーが人気またはトレンドになっているかを知ることは興味深いことです。
ただし、利用可能な LLM の包括的なインデックスはありません。
私たちは、Hugging Face LLM の比較的体系的な命名法を利用して、階層的クラスタリングを実行し、n グラムと用語頻度 – 逆文書頻度を使用して LLM 間のコミュニティを識別します。
私たちの方法は、LLM のファミリーを首尾よく特定し、LLM を意味のあるサブグループに正確に分類します。
15,821 個の LLM のアトラスである Constellation をナビゲートして探索するための公開 Web アプリケーションを紹介します。
Constellation は、樹状図、グラフ、ワード クラウド、散布図などのさまざまな視覚化を迅速に生成します。
Constellation は次のリンクから入手できます: https://constellation.sites.stanford.edu/。

要約(オリジナル)

Since late 2022, Large Language Models (LLMs) have become very prominent with LLMs like ChatGPT and Bard receiving millions of users. Hundreds of new LLMs are announced each week, many of which are deposited to Hugging Face, a repository of machine learning models and datasets. To date, nearly 16,000 Text Generation models have been uploaded to the site. Given the huge influx of LLMs, it is of interest to know which LLM backbones, settings, training methods, and families are popular or trending. However, there is no comprehensive index of LLMs available. We take advantage of the relatively systematic nomenclature of Hugging Face LLMs to perform hierarchical clustering and identify communities amongst LLMs using n-grams and term frequency-inverse document frequency. Our methods successfully identify families of LLMs and accurately cluster LLMs into meaningful subgroups. We present a public web application to navigate and explore Constellation, our atlas of 15,821 LLMs. Constellation rapidly generates a variety of visualizations, namely dendrograms, graphs, word clouds, and scatter plots. Constellation is available at the following link: https://constellation.sites.stanford.edu/.

arxiv情報

著者 Sarah Gao,Andrew Kean Gao
発行日 2023-07-19 07:17:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DL, I.2.1 パーマリンク