Are Character-level Translations Worth the Wait? An Extensive Comparison of Character- and Subword-level Models for Machine Translation

要約

事前トレーニング済みの大規模な文字レベルの言語モデルが最近活性化され、さまざまな NLP タスクでサブワード モデルと競合できることが示されています。
ただし、ニューラル機械翻訳 (NMT) での有効性を示す研究はありません。
この作業は、NMT で最先端の文字レベルおよびサブワード レベルの事前トレーニング済みモデル (それぞれ ByT5 および mT5) の複数の言語および実験条件にわたって広範な比較を実行し、前者が効果的であるだけでなく、
ただし、特にトレーニング データが限られている場合は、サブワード モデルよりも優れていることがよくあります。
キャラクター モデルの唯一の欠点は、その非効率性にあるようです (トレーニングと推論が少なくとも 4 倍遅くなります)。
さらに分析すると、文字モデルは単語またはサブワード レベルで暗黙的に翻訳できるため、文字レベルでの操作の潜在的な主な弱点が無効になることが示されています。

要約(オリジナル)

Pretrained large character-level language models have been recently revitalized and shown to be competitive with subword models across a range of NLP tasks. However, there has not been any research showing their effectiveness in neural machine translation (NMT). This work performs an extensive comparison across multiple languages and experimental conditions of state-of-the-art character- and subword-level pre-trained models (ByT5 and mT5, respectively) on NMT, and shows that the former not only are effective in translation, but frequently outperform subword models, particularly in cases where training data is limited. The only drawback of character models appears to be their inefficiency (at least 4 times slower to train and for inference). Further analysis indicates that character models are capable of implicitly translating on the word or subword level, thereby nullifying a major potential weakness of operating on the character level.

arxiv情報

著者 Lukas Edman,Antonio Toral,Gertjan van Noord
発行日 2023-02-28 00:50:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク