要約
ニューラル機械翻訳 (NMT) モデルの有効性は、トレーニングで使用される語彙に大きく依存します。
語彙が少ないと語彙外の問題が発生する可能性があります。語彙が大きくなると、記憶の問題につながります。
これらの問題を軽減するために、サブワード (SW) トークン化がうまく採用されています。
語彙とソフトウェア トークン化の選択は、NMT モデルのトレーニングと微調整の両方に大きな影響を与えます。
微調整は、新しいデータに関して MT モデルを最適化する際の一般的な方法です。
ただし、新しいデータは新しい単語 (またはトークン) を導入する可能性があり、これを考慮しないと、パフォーマンスが最適化されない可能性があります。
さらに、新しいデータ内のトークンの分布は、元のデータの分布とは異なる場合があります。
そのため、元の SW トークン化モデルは、新しいデータにはあまり適していない可能性があります。
体系的な経験的評価を通じて、この作業では、SW トークン化と語彙生成のさまざまな戦略を、ドメイン固有のモデルを微調整するための最適な設定を明らかにするという最終的な目標と比較します。
さらに、いくつかの (ドメイン内の) モデルを開発しましたが、その中で最も優れたものは、ベースラインよりも 6 つの BLEU ポイントの改善を達成しています。
要約(オリジナル)
The effectiveness of Neural Machine Translation (NMT) models largely depends on the vocabulary used at training; small vocabularies can lead to out-of-vocabulary problems — large ones, to memory issues. Subword (SW) tokenization has been successfully employed to mitigate these issues. The choice of vocabulary and SW tokenization has a significant impact on both training and fine-tuning an NMT model. Fine-tuning is a common practice in optimizing an MT model with respect to new data. However, new data potentially introduces new words (or tokens), which, if not taken into consideration, may lead to suboptimal performance. In addition, the distribution of tokens in the new data can differ from the distribution of the original data. As such, the original SW tokenization model could be less suitable for the new data. Through a systematic empirical evaluation, in this work we compare different strategies for SW tokenization and vocabulary generation with the ultimate goal to uncover an optimal setting for fine-tuning a domain-specific model. Furthermore, we developed several (in-domain) models, the best of which achieves 6 BLEU points improvement over the baseline.
arxiv情報
著者 | J. Pourmostafa Roshan Sharami,D. Shterionov,P. Spronck |
発行日 | 2023-03-01 18:26:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google