On the Effect of (Near) Duplicate Subwords in Language Modelling

要約

トークン化は、言語モデル (LM) の中核部分です。
これには、文字シーケンスを LM に提供される前に任意のインデックスが割り当てられるサブワードに分割することが含まれます。
ただし、通常はロスレスですが、このプロセスはサンプル効率の低い LM トレーニングにつながる可能性があります。文字レベルの情報が削除されるため、LM が now や Now などの類似したサブワード全体にわたって一般化することが困難になる可能性があります。
このようなサブワードを「ほぼ重複」と呼びます。
この論文では、LM トレーニング効率に対するほぼ重複したサブワードの影響を研究します。
まず、ほぼ重複したものを完全に一般化できた場合にモデルの改善がどの程度期待できるかについての上限を与える実験を設計します。
これを行うには、LM の語彙内の各サブワードを複製し、完全に同等のサブワード クラスを作成します。
実験的に、LM が完全に複製された設定でトレーニングされた場合、約 17% 多くのデータが必要であることがわかりました。
次に、自然に発生するほぼ重複が LM に与える影響を調査します。
ここで、これらをマージすると LM のパフォーマンスが大幅に低下することがわかります。
したがって、サブワードの重複は LM トレーニングの効率に悪影響を及ぼしますが、自然に発生する近くの重複は予想ほど類似していない可能性があり、パフォーマンス向上の可能性が制限されます。

要約(オリジナル)

Tokenisation is a core part of language models (LMs). It involves splitting a character sequence into subwords which are assigned arbitrary indices before being served to the LM. While typically lossless, however, this process may lead to less sample efficient LM training: as it removes character-level information, it could make it harder for LMs to generalise across similar subwords, such as now and Now. We refer to such subwords as near duplicates. In this paper, we study the impact of near duplicate subwords on LM training efficiency. First, we design an experiment that gives us an upper bound to how much we should expect a model to improve if we could perfectly generalise across near duplicates. We do this by duplicating each subword in our LM’s vocabulary, creating perfectly equivalent classes of subwords. Experimentally, we find that LMs need roughly 17% more data when trained in a fully duplicated setting. Second, we investigate the impact of naturally occurring near duplicates on LMs. Here, we see that merging them considerably hurts LM performance. Therefore, although subword duplication negatively impacts LM training efficiency, naturally occurring near duplicates may not be as similar as anticipated, limiting the potential for performance improvements.

arxiv情報

著者 Anton Schäfer,Thomas Hofmann,Imanol Schlag,Tiago Pimentel
発行日 2024-04-09 17:57:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, I.2.7 パーマリンク