The advantages of context specific language models: the case of the Erasmian Language Model

要約

言語モデルのパフォーマンスを改善するための現在の傾向は、パラメーターの数(たとえば、最先端のGPT4モデルには約1.7兆パラメーターがあります)またはモデルに供給されるトレーニングデータの量を拡大することに基づいているようです。
ただし、これは、AIソリューションの持続可能性を損なう計算リソースとエネルギーコスト、ならびにプライバシーと誤用に関連するリスクの観点から、かなりのコストでもたらされます。
このホワイトペーパーでは、エラスムス大学ロッテルダムによって、および微調整された、エラスミアン言語モデル(ELM)を小さなコンテキスト固有の9億パラメーターモデルで紹介します。
エッセイの執筆のために教室のコンテキストでモデルがどのように適切に機能するか、およびそのコンテキストの一部である被験者で優れたパフォーマンスをどのように達成するかを示します。
これは、幅広い機関や組織に影響を及ぼし、コンテキスト固有の言語モデルが、リソースが制約され、プライバシーに敏感なユースケースの実行可能な代替手段である可能性があることを示しています。

要約(オリジナル)

The current trend to improve language model performance seems to be based on scaling up with the number of parameters (e.g. the state of the art GPT4 model has approximately 1.7 trillion parameters) or the amount of training data fed into the model. However this comes at significant costs in terms of computational resources and energy costs that compromise the sustainability of AI solutions, as well as risk relating to privacy and misuse. In this paper we present the Erasmian Language Model (ELM) a small context specific, 900 million parameter model, pre-trained and fine-tuned by and for Erasmus University Rotterdam. We show how the model performs adequately in a classroom context for essay writing, and how it achieves superior performance in subjects that are part of its context. This has implications for a wide range of institutions and organizations, showing that context specific language models may be a viable alternative for resource constrained, privacy sensitive use cases.

arxiv情報

著者 João Gonçalves,Nick Jelicic,Michele Murgia,Evert Stamhuis
発行日 2025-04-23 11:31:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク