Distributional Properties of Subword Regularization

要約

NLP で広く使用されているサブワード正則化は、正確なトークン化への依存を減らし、トレーニング コーパスを強化し、トレーニング中にモデルをより固有のコンテキストにさらすことにより、モデルのパフォーマンスを向上させます。
BPE と MaxMatch の 2 つの一般的なサブワード トークン化スキームには、確率的ドロップアウト正則化のバリアントがあります。
しかし、それらによって形成された分布の分析は行われていません。
これらの確率論的バリアントは、単語あたりのトークン化の小さなセットに大きく偏っていることを示します。
サブワード正則化の利点が前述したとおりである場合、バイアスがこれらのスキームの有効性を人為的に制限すると仮説を立てます。
したがって、既存のトークナイザーの確率的側面のドロップイン置換として使用するトークン化を均一にサンプリングするアルゴリズムを提案し、それが機械翻訳の品質を向上させることを発見しました。

要約(オリジナル)

Subword regularization, used widely in NLP, improves model performance by reducing the dependency on exact tokenizations, augmenting the training corpus, and exposing the model to more unique contexts during training. BPE and MaxMatch, two popular subword tokenization schemes, have stochastic dropout regularization variants. However, there has not been an analysis of the distributions formed by them. We show that these stochastic variants are heavily biased towards a small set of tokenizations per word. If the benefits of subword regularization are as mentioned, we hypothesize that biasedness artificially limits the effectiveness of these schemes. Thus, we propose an algorithm to uniformly sample tokenizations that we use as a drop-in replacement for the stochastic aspects of existing tokenizers, and find that it improves machine translation quality.

arxiv情報

著者 Marco Cognetta,Vilém Zouhar,Naoaki Okazaki
発行日 2024-08-21 08:53:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク