Assessing the Importance of Frequency versus Compositionality for Subword-based Tokenization in NMT

要約

サブワードのトークン化は、ニューラル言語モデルおよび機械翻訳システムにおけるトークン化の事実上の標準です。
サブワードを支持する 3 つの利点が頻繁に挙げられます。それは、頻繁に使用されるトークンのエンコードが短いこと、サブワードの構成性、および未知の単語を処理できることです。
それらの相対的な重要性はまだ完全には明らかではないため、頻度 (最初の利点) を構成性から分離できるようにするトークン化アプローチを提案します。
このアプローチでは、ハフマン符号化を使用して、固定量のシンボルを使用して頻度順に単語をトークン化します。
CS-DE、EN-FR、および EN-DE NMT を使用した実験では、頻度のみが BPE によって達成されるスコアの 90% ~ 95% を占めており、したがって、構成性の重要性は以前に考えられていたほどではないことが示されています。

要約(オリジナル)

Subword tokenization is the de facto standard for tokenization in neural language models and machine translation systems. Three advantages are frequently cited in favor of subwords: shorter encoding of frequent tokens, compositionality of subwords, and ability to deal with unknown words. As their relative importance is not entirely clear yet, we propose a tokenization approach that enables us to separate frequency (the first advantage) from compositionality. The approach uses Huffman coding to tokenize words, by order of frequency, using a fixed amount of symbols. Experiments with CS-DE, EN-FR and EN-DE NMT show that frequency alone accounts for 90%-95% of the scores reached by BPE, hence compositionality has less importance than previously thought.

arxiv情報

著者 Benoist Wolleb,Romain Silvestri,Giorgos Vernikos,Ljiljana Dolamic,Andrei Popescu-Belis
発行日 2024-01-12 12:21:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク