A Survey of Large Language Models

要約

タイトル:大規模な言語モデルの調査
要約:

– 言語は、文法的なルールに支配される複雑で入り組んだ人間の表現システムであるため、AIアルゴリズムを開発して言語を理解することは、大きな課題である。
– 言語モデリングは、過去20年間に渡って、言語理解および生成のために広く研究されてきた主要なアプローチの一つであり、統計的言語モデルからニューラル言語モデルへと進化してきた。
– 最近、大規模なコーパス上でTransformerモデルの事前学習を行うことで、事前学習言語モデル(PLM)が提案され、様々なNLPタスクを解決する強力な能力が示されている。
– 研究者は、モデルスケーリングがパフォーマンス向上につながることを発見し、モデルサイズをさらに大きくしてスケーリング効果を研究している。特に、一定のパラメータスケールを超えると、これらの拡大された言語モデルは、かなりのパフォーマンス向上を達成するだけでなく、小規模な言語モデルでは現れない特殊な能力を示すことがある。
– 研究コミュニティは、パラメータスケールの違いを区別するために、大規模な言語モデル(LLM)という用語をPLMsの意義のあるサイズのものに対して使用している。
– 最近、学界と産業界の両方によるLLMの研究が大きく進んでおり、ChatGPTの発表は社会的に広く注目されている。
– LLMの技術的な進化は、AIコミュニティ全体に重要な影響を与え、AIアルゴリズムをどのように開発・利用するかを革新する可能性がある。
– この調査では、背景、主な知見、および主流の手法を紹介して、LLMの最近の進歩を検討する。特に、事前学習、適応調整、利用、および容量評価というLLMの4つの主要な側面に焦点を当てる。
– また、LLMの開発に役立つリソースをまとめ、将来の方向性に残された課題についても検討する。

要約(オリジナル)

Language is essentially a complex, intricate system of human expressions governed by grammatical rules. It poses a significant challenge to develop capable AI algorithms for comprehending and grasping a language. As a major approach, language modeling has been widely studied for language understanding and generation in the past two decades, evolving from statistical language models to neural language models. Recently, pre-trained language models (PLMs) have been proposed by pre-training Transformer models over large-scale corpora, showing strong capabilities in solving various NLP tasks. Since researchers have found that model scaling can lead to performance improvement, they further study the scaling effect by increasing the model size to an even larger size. Interestingly, when the parameter scale exceeds a certain level, these enlarged language models not only achieve a significant performance improvement but also show some special abilities that are not present in small-scale language models. To discriminate the difference in parameter scale, the research community has coined the term large language models (LLM) for the PLMs of significant size. Recently, the research on LLMs has been largely advanced by both academia and industry, and a remarkable progress is the launch of ChatGPT, which has attracted widespread attention from society. The technical evolution of LLMs has been making an important impact on the entire AI community, which would revolutionize the way how we develop and use AI algorithms. In this survey, we review the recent advances of LLMs by introducing the background, key findings, and mainstream techniques. In particular, we focus on four major aspects of LLMs, namely pre-training, adaptation tuning, utilization, and capacity evaluation. Besides, we also summarize the available resources for developing LLMs and discuss the remaining issues for future directions.

arxiv情報

著者 Wayne Xin Zhao,Kun Zhou,Junyi Li,Tianyi Tang,Xiaolei Wang,Yupeng Hou,Yingqian Min,Beichen Zhang,Junjie Zhang,Zican Dong,Yifan Du,Chen Yang,Yushuo Chen,Zhipeng Chen,Jinhao Jiang,Ruiyang Ren,Yifan Li,Xinyu Tang,Zikang Liu,Peiyu Liu,Jian-Yun Nie,Ji-Rong Wen
発行日 2023-04-12 16:13:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL パーマリンク