Should you marginalize over possible tokenizations?

要約

自己回帰言語モデル (LM) は、トークン シーケンスを確率にマッピングします。
文字列 (英語の文章など) の確率を計算する通常の方法では、まず文字列をモデルによってスコア付けされるトークンのシーケンスに変換します。
ただし、特定の文字列を表すトークン シーケンスは指数関数的に多く存在します。
文字列の確率を正確に計算するには、すべてのトークン化を周辺化する必要がありますが、これは通常困難です。
ここでは、疎外を無視する慣行が正当化されるかどうかを分析します。
この目的のために、私たちは周辺確率の推定値を計算し、それをさまざまな最先端のモデルやデータセットのデフォルトの手順と比較できるようにする重要度サンプリングベースのアルゴリズムを考案しました。
私たちの結果は、ほとんどの場合、対数尤度のギャップは 0.5% 以下ですが、長い複雑な単語を含むデータではより顕著になることを示しています。

要約(オリジナル)

Autoregressive language models (LMs) map token sequences to probabilities. The usual practice for computing the probability of any character string (e.g. English sentences) is to first transform it into a sequence of tokens that is scored by the model. However, there are exponentially many token sequences that represent any given string. To truly compute the probability of a string one should marginalize over all tokenizations, which is typically intractable. Here, we analyze whether the practice of ignoring the marginalization is justified. To this end, we devise an importance-sampling-based algorithm that allows us to compute estimates of the marginal probabilities and compare them to the default procedure in a range of state-of-the-art models and datasets. Our results show that the gap in log-likelihood is no larger than 0.5% in most cases, but that it becomes more pronounced for data with long complex words.

arxiv情報

著者 Nadezhda Chirkova,Germán Kruszewski,Jos Rozen,Marc Dymetman
発行日 2023-06-30 16:09:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク