The advantages of context specific language models: the case of the Erasmian Language Model

要約

言語モデルのパフォーマンスを向上させる現在の傾向は、パラメーターの数 (たとえば、最先端の GPT4 モデルには約 1.7 兆個のパラメーターがあります) またはモデルに供給されるトレーニング データの量によるスケールアップに基づいているようです。
ただし、これには計算リソースとエネルギーコストの観点から多大なコストがかかり、AI ソリューションの持続可能性を損なうだけでなく、プライバシーや悪用に関連するリスクも伴います。
この論文では、エラスムス大学ロッテルダムによって事前にトレーニングされ微調整された、コンテキスト固有の小規模な 9 億パラメータ モデルであるエラスムス言語モデル (ELM) を紹介します。
このモデルが授業のエッセイ執筆のコンテキストでどのように適切に機能するか、またそのコンテキストの一部である主題でどのように優れたパフォーマンスを達成するかを示します。
これは幅広い機関や組織に影響を及ぼし、コンテキスト固有の言語モデルが、リソースに制約があり、プライバシーに配慮したユースケースに対する実行可能な代替手段となる可能性があることを示しています。

要約(オリジナル)

The current trend to improve language model performance seems to be based on scaling up with the number of parameters (e.g. the state of the art GPT4 model has approximately 1.7 trillion parameters) or the amount of training data fed into the model. However this comes at significant costs in terms of computational resources and energy costs that compromise the sustainability of AI solutions, as well as risk relating to privacy and misuse. In this paper we present the Erasmian Language Model (ELM) a small context specific, 900 million parameter model, pre-trained and fine-tuned by and for Erasmus University Rotterdam. We show how the model performs adequately in a classroom context for essay writing, and how it achieves superior performance in subjects that are part of its context. This has implications for a wide range of institutions and organizations, showing that context specific language models may be a viable alternative for resource constrained, privacy sensitive use cases.

arxiv情報

著者 João Gonçalves,Nick Jelicic,Michele Murgia,Evert Stamhuis
発行日 2024-08-13 14:34:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク