Should you marginalize over possible tokenizations?


自己回帰言語モデル (LM) は、トークン シーケンスを確率にマッピングします。
文字列 (英語の文章など) の確率を計算する通常の方法では、まず文字列をモデルによってスコア付けされるトークンのシーケンスに変換します。
ただし、特定の文字列を表すトークン シーケンスは指数関数的に多く存在します。
私たちの結果は、ほとんどの場合、対数尤度のギャップは 0.5% 以下ですが、長い複雑な単語を含むデータではより顕著になることを示しています。


Autoregressive language models (LMs) map token sequences to probabilities. The usual practice for computing the probability of any character string (e.g. English sentences) is to first transform it into a sequence of tokens that is scored by the model. However, there are exponentially many token sequences that represent any given string. To truly compute the probability of a string one should marginalize over all tokenizations, which is typically intractable. Here, we analyze whether the practice of ignoring the marginalization is justified. To this end, we devise an importance-sampling-based algorithm that allows us to compute estimates of the marginal probabilities and compare them to the default procedure in a range of state-of-the-art models and datasets. Our results show that the gap in log-likelihood is no larger than 0.5% in most cases, but that it becomes more pronounced for data with long complex words.


著者 Nadezhda Chirkova,Germán Kruszewski,Jos Rozen,Marc Dymetman
発行日 2023-06-30 16:09:01+00:00
