Lower Bounds on the Expressivity of Recurrent Neural Language Models

要約

大規模なニューラル言語モデル (LM) の最近の成功と普及には、その計算能力を完全に理解することが必要です。
LM の \emph{表現能力} を通じて彼らの計算能力を説明することは、活発な研究分野です。
しかし、神経 LM の表現能力に関する研究は主に、形式言語を \emph{認識}する能力に焦点を当ててきました。
たとえば、ヘビサイド活性化を備えたリカレント ニューラル ネットワーク (RNN) は、通常の言語、つまり有限状態オートマトン (FSA) によって定義された言語と密接にリンクされています。
しかし、このような結果は、RNN \emph{言語モデル} (LM) の機能を説明するには至っていません。LM は定義上、文字列上の \emph{ディストリビューション} です。
RNN LM を \emph{probabilistic} FSA に接続することでその表現能力を改めて調べ、線形に制限された精度を持つ RNN LM が任意の正規 LM を表現できることを実証します。

要約(オリジナル)

The recent successes and spread of large neural language models (LMs) call for a thorough understanding of their computational ability. Describing their computational abilities through LMs’ \emph{representational capacity} is a lively area of research. However, investigation into the representational capacity of neural LMs has predominantly focused on their ability to \emph{recognize} formal languages. For example, recurrent neural networks (RNNs) with Heaviside activations are tightly linked to regular languages, i.e., languages defined by finite-state automata (FSAs). Such results, however, fall short of describing the capabilities of RNN \emph{language models} (LMs), which are definitionally \emph{distributions} over strings. We take a fresh look at the representational capacity of RNN LMs by connecting them to \emph{probabilistic} FSAs and demonstrate that RNN LMs with linearly bounded precision can express arbitrary regular LMs.

arxiv情報

著者 Anej Svete,Franz Nowak,Anisha Mohamed Sahabdeen,Ryan Cotterell
発行日 2024-06-18 15:42:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク