要約
過去の語彙学習手法は、トレーニング前に関連する語彙を特定し、モデルトレーニングの役割を主に無視する統計的およびエントロピーベースの仮定に依存しています。
経験的には、トレーニングされた翻訳モデルが、元のBPE語彙とは異なるバイトペアエンコード(BPE)の語彙サブセットを使用するように誘導され、誘導された語彙で再試行するとパフォーマンスの改善につながることが観察されます。
この論文では、自己トレーニング中の語彙とエントロピーシフトを調べることにより、神経機械翻訳のこの矛盾を分析します。各反復は、ソース文とモデルの予測をペアリングして新しい語彙を定義することにより、ラベル付きデータセットを生成します。
これらの洞察に基づいて、私たちは自己送電トレーニングを提案します。これは、より小さく、より最適な語彙を自己選択し、最大1.49ブルーの改善をもたらす反復方法です。
さらに、より深いモデルアーキテクチャは、独自のトークン使用量の増加と語彙サイズの6〜8%の減少の両方につながることがわかります。
要約(オリジナル)
Past vocabulary learning techniques identify relevant vocabulary before training, relying on statistical and entropy-based assumptions that largely neglect the role of model training. Empirically, we observe that trained translation models are induced to use a byte-pair encoding (BPE) vocabulary subset distinct from the original BPE vocabulary, leading to performance improvements when retrained with the induced vocabulary. In this paper, we analyze this discrepancy in neural machine translation by examining vocabulary and entropy shifts during self-training–where each iteration generates a labeled dataset by pairing source sentences with the model’s predictions to define a new vocabulary. Building on these insights, we propose self-vocabularizing training, an iterative method that self-selects a smaller, more optimal vocabulary, yielding up to a 1.49 BLEU improvement. Moreover, we find that deeper model architectures lead to both an increase in unique token usage and a 6-8% reduction in vocabulary size.
arxiv情報
著者 | Pin-Jie Lin,Ernie Chang,Yangyang Shi,Vikas Chandra |
発行日 | 2025-04-01 02:43:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google