An Overview on Language Models: Recent Developments and Outlook

要約

言語モデリングでは、一連のテキストの確率分布を研究します。
これは、自然言語処理 (NLP) の最も基本的なタスクの 1 つです。
これは、テキスト生成、音声認識、機械翻訳などで広く使用されています。従来の言語モデル (CLM) は、因果的な方法で言語シーケンスの確率を予測することを目的としています。
対照的に、事前トレーニング済み言語モデル (PLM) はより広い概念をカバーし、因果シーケンシャル モデリングとダウンストリーム アプリケーションの微調整の両方で使用できます。
PLM には独自のトレーニング パラダイム (通常は自己管理型) があり、最新の NLP システムの基盤モデルとして機能します。
この概要書では、CLM と PLM の両方について、言語単位、構造、トレーニング方法、評価方法、アプリケーションの 5 つの側面から紹介します。
さらに、CLM と PLM の関係について議論し、事前訓練された時代における言語モデリングの将来の方向性に光を当てます。

要約(オリジナル)

Language modeling studies the probability distributions over strings of texts. It is one of the most fundamental tasks in natural language processing (NLP). It has been widely used in text generation, speech recognition, machine translation, etc. Conventional language models (CLMs) aim to predict the probability of linguistic sequences in a causal manner. In contrast, pre-trained language models (PLMs) cover broader concepts and can be used in both causal sequential modeling and fine-tuning for downstream applications. PLMs have their own training paradigms (usually self-supervised) and serve as foundation models in modern NLP systems. This overview paper provides an introduction to both CLMs and PLMs from five aspects, i.e., linguistic units, structures, training methods, evaluation methods, and applications. Furthermore, we discuss the relationship between CLMs and PLMs and shed light on the future directions of language modeling in the pre-trained era.

arxiv情報

著者 Chengwei Wei,Yun-Cheng Wang,Bin Wang,C. -C. Jay Kuo
発行日 2023-03-10 07:55:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク