Tokenization and the Noiseless Channel

要約

サブワードのトークン化は、多くの NLP パイプラインの重要な部分です。
ただし、一部のトークナイザーとハイパーパラメーターの組み合わせが他のものよりも優れたダウンストリーム モデルのパフォーマンスにつながる理由についてはほとんどわかっていません。
私たちは、優れたトークナイザーが \emph{効率的な} チャネルの使用につながることを提案します。チャネルは、何らかの入力がモデルに伝達される手段であり、効率は情報理論用語でシャノンのエントロピーと最大値の比として定量化できます。
トークン分布の可能なエントロピー。
それでも、シャノンのエントロピーに基づく最適なエンコードでは、非常に長いコードが低周波数トークンに割り当てられ、非常に短いコードが高周波数トークンに割り当てられます。
一方、R\’enyi エントロピーの観点から効率を定義すると、非常に高いまたは非常に低い頻度のトークンの配布にペナルティが課されます。
機械翻訳では、複数のトークナイザーにわたって、$\alpha = 2.5$ の R\’enyi エントロピーが \textsc{Bleu} と非常に強い相関関係を持っていることがわかりました。圧縮された長さの場合はわずか $-0.32$ であるのに対し、$0.78$ です。

要約(オリジナル)

Subword tokenization is a key part of many NLP pipelines. However, little is known about why some tokenizer and hyperparameter combinations lead to better downstream model performance than others. We propose that good tokenizers lead to \emph{efficient} channel usage, where the channel is the means by which some input is conveyed to the model and efficiency can be quantified in information-theoretic terms as the ratio of the Shannon entropy to the maximum possible entropy of the token distribution. Yet, an optimal encoding according to Shannon entropy assigns extremely long codes to low-frequency tokens and very short codes to high-frequency tokens. Defining efficiency in terms of R\’enyi entropy, on the other hand, penalizes distributions with either very high or very low-frequency tokens. In machine translation, we find that across multiple tokenizers, the R\’enyi entropy with $\alpha = 2.5$ has a very strong correlation with \textsc{Bleu}: $0.78$ in comparison to just $-0.32$ for compressed length.

arxiv情報

著者 Vilém Zouhar,Clara Meister,Juan Luis Gastaldi,Li Du,Mrinmaya Sachan,Ryan Cotterell
発行日 2023-06-29 10:32:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IT, math.IT パーマリンク