要約
大規模な言語モデルは何を学習できるのでしょうか?
定義上、言語モデル (LM) は文字列の配布です。
したがって、上記の質問に対処する直観的な方法は、文字列上の分布クラスの学習可能性の問題としてそれを形式化することです。
この方向におけるこれまでの研究は理論的な限界を評価することに焦点を当てていましたが、対照的に、私たちは経験的な学習可能性を理解しようと努めています。
これまでの経験的研究とは異なり、形式言語の分類子としてではなく、本拠地である確率的言語の学習においてニューラル LM を評価します。
特に、RNN と Transformer LM による通常の LM (RLM) の学習可能性を調査します。
我々は、RLM のさまざまな複雑性パラメーターとニューラル LM の隠れ状態サイズの関数として、RLM の学習可能性を経験的にテストします。
条件付き分布のロジットが広がる線形空間のサイズに対応する RLM ランクと、サンプリングされた文字列の予想される長さが、RNN とトランスフォーマーの両方の学習可能性の強力かつ重要な予測因子であることがわかりました。
他のいくつかの予測子も有意に達しますが、RNN とトランスフォーマーではパターンが異なります。
要約(オリジナル)
What can large language models learn? By definition, language models (LM) are distributions over strings. Therefore, an intuitive way of addressing the above question is to formalize it as a matter of learnability of classes of distributions over strings. While prior work in this direction focused on assessing the theoretical limits, in contrast, we seek to understand the empirical learnability. Unlike prior empirical work, we evaluate neural LMs on their home turf-learning probabilistic languages-rather than as classifiers of formal languages. In particular, we investigate the learnability of regular LMs (RLMs) by RNN and Transformer LMs. We empirically test the learnability of RLMs as a function of various complexity parameters of the RLM and the hidden state size of the neural LM. We find that the RLM rank, which corresponds to the size of linear space spanned by the logits of its conditional distributions, and the expected length of sampled strings are strong and significant predictors of learnability for both RNNs and Transformers. Several other predictors also reach significance, but with differing patterns between RNNs and Transformers.
arxiv情報
著者 | Nadav Borenstein,Anej Svete,Robin Chan,Josef Valvoda,Franz Nowak,Isabelle Augenstein,Eleanor Chodroff,Ryan Cotterell |
発行日 | 2024-06-07 08:30:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google