Autocorrelations Decay in Texts and Applicability Limits of Language Models

要約

テキスト中の自己相関の減衰の法則は、言語モデルの適用限界と密接な関係があることを示す。分布的意味論を用いて、テキスト中の単語の自己相関がべき乗則に従って減衰することを経験的に証明する。また、多言語に翻訳されたテキストにおいて、分布的意味論が首尾一貫した自己相関の減衰指数を提供することを明らかにする。生成されたテキストにおける自己相関の減衰は、文学的なテキストとは量的に、またしばしば質的に異なっている。大規模自己回帰言語モデルを含むマルコフ挙動を示す言語モデルは、分析であれ生成であれ、長文テキストに適用した場合、限界がある可能性があると結論付けた。

要約(オリジナル)

We show that the laws of autocorrelations decay in texts are closely related to applicability limits of language models. Using distributional semantics we empirically demonstrate that autocorrelations of words in texts decay according to a power law. We show that distributional semantics provides coherent autocorrelations decay exponents for texts translated to multiple languages. The autocorrelations decay in generated texts is quantitatively and often qualitatively different from the literary texts. We conclude that language models exhibiting Markov behavior, including large autoregressive language models, may have limitations when applied to long texts, whether analysis or generation.

arxiv情報

著者 Nikolay Mikhaylovskiy,Ilya Churilov
発行日 2023-05-11 07:23:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, I.2.7 パーマリンク