要約
サブワードによるトークン化は、ニューラル言語モデルや機械翻訳システムにおけるトークン化のデファクトスタンダードである。サブワードの利点として、頻度の高いトークンをより短く符号化できること、サブワードの構成性が高いこと、未知の単語を扱えることの3点がよく挙げられている。この3つの利点の相対的な重要性はまだ完全には明らかになっていないため、我々は頻度(第1の利点)と構成性を分離することを可能にするトークン化アプローチを提案する。このアプローチでは、ハフマン符号化を用いて、一定の記号量を用いて、頻度の高い順に単語をトークン化する。CS-DE、EN-FR、EN-DE NMTを用いた実験の結果、BPEが到達したスコアの90%~95%は頻度だけで占められており、したがって構成性は従来考えられていたよりも重要でないことがわかった。
要約(オリジナル)
Subword tokenization is the de facto standard for tokenization in neural language models and machine translation systems. Three advantages are frequently cited in favor of subwords: shorter encoding of frequent tokens, compositionality of subwords, and ability to deal with unknown words. As their relative importance is not entirely clear yet, we propose a tokenization approach that enables us to separate frequency (the first advantage) from compositionality. The approach uses Huffman coding to tokenize words, by order of frequency, using a fixed amount of symbols. Experiments with CS-DE, EN-FR and EN-DE NMT show that frequency alone accounts for 90%-95% of the scores reached by BPE, hence compositionality has less importance than previously thought.
arxiv情報
著者 | Benoist Wolleb,Romain Silvestri,Giorgos Vernikos,Ljiljana Dolamic Andrei Popescu-Belis |
発行日 | 2023-06-02 09:39:36+00:00 |
arxivサイト | arxiv_id(pdf) |