A Survey of Large Language Models

要約

タイトル:大規模言語モデルの概観
要約:
– 言語は、複雑で入り組んだ人間の表現のシステムであり、文法的なルールに支配されます。それらを理解する能力を持ったAIアルゴリズムを開発することは、重要な課題です。
– 過去二十年間、言語モデリングは、言語の理解と生成のために広く研究されてきました。
– 近年、大規模コーパスでTransformerモデルを事前学習するという方法による事前学習言語モデル(PLMs)が提案され、多様なNLPタスクを解決するための強力な能力を示しています。モデルスケーリングが性能の向上につながることがわかり、モデルサイズをより大きくすることで拡大された言語モデルが、小規模な言語モデルにはない特別な能力を持つことが示されました。この大きな違いについて、LLMsという用語が導入され、研究が進められています。
– この論文では、LLMsの最新の進歩を背景、主要な発見、主流技術を紹介し、具体的に事前学習、適応チューニング、利用、容量評価の4つの側面に焦点を当てています。また、LLMsを開発するための利用可能なリソースをまとめて、未来の方向性については残された問題を議論しました。ChatGPTの発表は、LLMsの進歩を大きく促進し、AIアルゴリズムの開発と使用方法を革新する可能性があります。

要約(オリジナル)

Language is essentially a complex, intricate system of human expressions governed by grammatical rules. It poses a significant challenge to develop capable AI algorithms for comprehending and grasping a language. As a major approach, language modeling has been widely studied for language understanding and generation in the past two decades, evolving from statistical language models to neural language models. Recently, pre-trained language models (PLMs) have been proposed by pre-training Transformer models over large-scale corpora, showing strong capabilities in solving various NLP tasks. Since researchers have found that model scaling can lead to performance improvement, they further study the scaling effect by increasing the model size to an even larger size. Interestingly, when the parameter scale exceeds a certain level, these enlarged language models not only achieve a significant performance improvement but also show some special abilities that are not present in small-scale language models. To discriminate the difference in parameter scale, the research community has coined the term large language models (LLM) for the PLMs of significant size. Recently, the research on LLMs has been largely advanced by both academia and industry, and a remarkable progress is the launch of ChatGPT, which has attracted widespread attention from society. The technical evolution of LLMs has been making an important impact on the entire AI community, which would revolutionize the way how we develop and use AI algorithms. In this survey, we review the recent advances of LLMs by introducing the background, key findings, and mainstream techniques. In particular, we focus on four major aspects of LLMs, namely pre-training, adaptation tuning, utilization, and capacity evaluation. Besides, we also summarize the available resources for developing LLMs and discuss the remaining issues for future directions.

arxiv情報

著者 Wayne Xin Zhao,Kun Zhou,Junyi Li,Tianyi Tang,Xiaolei Wang,Yupeng Hou,Yingqian Min,Beichen Zhang,Junjie Zhang,Zican Dong,Yifan Du,Chen Yang,Yushuo Chen,Zhipeng Chen,Jinhao Jiang,Ruiyang Ren,Yifan Li,Xinyu Tang,Zikang Liu,Peiyu Liu,Jian-Yun Nie,Ji-Rong Wen
発行日 2023-04-09 15:49:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL パーマリンク