要約
言語モデル (LM) は、自然言語のシーケンス全体の確率分布を推定します。
これらの分布は、言語学研究における困惑と驚きを計算するために重要です。
私たちは通常、単語のこれらの値を測定することに関心を持っていますが、ほとんどの LM はサブワードに対して動作します。
一見簡単そうに見えますが、一方のユニットの確率を考慮して他方のユニットの確率を正確に計算するには注意が必要です。
実際、ここで、最近の言語研究の多くがこれらの値を誤って計算していることを示します。
この論文は、単語の確率を計算するための正しい方法を導き出し、GPT ファミリなどの単語の始まり (弓) マーキング トークナイザーを使用する言語モデルに依存する場合の問題を強調します。
確率計算における蔓延するバグを修正すると、文章理解と語彙最適化分析の測定結果に影響を与えることが経験的に示されています。
要約(オリジナル)
Language models (LMs) estimate the probability distribution over sequences of natural language; these distributions are crucial for computing perplexity and surprisal in linguistics research. While we are usually concerned with measuring these values for words, most LMs operate over subwords. Despite seemingly straightforward, accurately computing probabilities over one unit given probabilities over the other requires care. Indeed, we show here that many recent linguistic studies have been incorrectly computing these values. This paper derives the correct methods for computing word probabilities, highlighting issues when relying on language models that use beginning-of-word (bow)-marking tokenisers, e.g., the GPT family. Empirically, we show that correcting the widespread bug in probability computations affects measured outcomes in sentence comprehension and lexical optimisation analyses.
arxiv情報
| 著者 | Tiago Pimentel,Clara Meister | 
| 発行日 | 2024-06-20 17:59:42+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
