Filtered Corpus Training (FiCT) Shows that Language Models can Generalize from Indirect Evidence

要約

この論文では、トレーニング データからフィルタリングされた特定の言語構造を使用してコーパス上で言語モデル (LM) をトレーニングする方法であるフィルター コーパス トレーニングを紹介し、それを使用して間接的な証拠に基づいて言語一般化を実行する LM の能力を測定します。
私たちはこの方法を LSTM と Transformer LM (ほぼ同等のサイズ) の両方に適用し、広範囲の言語現象を対象とするフィルター処理されたコーパスを開発します。
私たちの結果は、トランスフォーマーが LM としては優れている一方で (複雑さによって測定される)、両方のモデルが言語的一般化尺度において同等かつ驚くほど良好に機能することを示しており、間接的な証拠から一般化できることを示唆しています。

要約(オリジナル)

This paper introduces Filtered Corpus Training, a method that trains language models (LMs) on corpora with certain linguistic constructions filtered out from the training data, and uses it to measure the ability of LMs to perform linguistic generalization on the basis of indirect evidence. We apply the method to both LSTM and Transformer LMs (of roughly comparable size), developing filtered corpora that target a wide range of linguistic phenomena. Our results show that while transformers are better qua LMs (as measured by perplexity), both models perform equally and surprisingly well on linguistic generalization measures, suggesting that they are capable of generalizing from indirect evidence.

arxiv情報

著者 Abhinav Patil,Jaap Jumelet,Yu Ying Chiu,Andy Lapastora,Peter Shen,Lexie Wang,Clevis Willrich,Shane Steinert-Threlkeld
発行日 2024-05-24 17:47:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク