Are Character-level Translations Worth the Wait? Comparing Character- and Subword-level Models for Machine Translation

要約

最近、事前学習された文字レベル言語モデルは、様々なNLPタスクにおいて、一般的なサブワードモデルと競合することが示されました。しかし、ニューラル機械翻訳(NMT)に対する有効性については、これまでほとんど研究されてこなかった。本研究では、NMTにおける最先端の文字レベルおよびサブワードレベルの事前学習済みモデル(それぞれByT5およびmT5)について、複数の言語および実験条件にわたって広範な比較を行い、特に学習データが限られている場合に、翻訳における文字レベルのモデリングの有効性を示す。分析では、文字モデルの性能向上が、直交類似語や希少語のより良い翻訳に反映されることを示す。モデル予測における原文の重要性を評価する一方で、翻訳中に単語と文字レベルの情報を調整する能力を示唆するByT5の単語レベルパターンを強調し、文字レベルモデリングの潜在的弱点に関する洞察を提供します。最後に、文字モデルの効率性のトレードオフを評価し、翻訳品質を高めるために、タイムクリティカルではないシナリオで使用することを提案します。

要約(オリジナル)

Pretrained character-level language models were recently shown to be competitive with popular subword models across a range of NLP tasks. However, there has been little research on their effectiveness for neural machine translation (NMT). This work performs an extensive comparison across multiple languages and experimental conditions of state-of-the-art character- and subword-level pre-trained models (ByT5 and mT5, respectively) on NMT, showing the effectiveness of character-level modeling in translation, particularly in cases where training data is limited. In our analysis, we show how character models’ performance gains are reflected in better translations of orthographically similar words and rare words. While evaluating the importance of source texts in driving model predictions, we highlight ByT5 word-level patterns suggesting an ability to modulate word and character-level information during the translation, providing insights into a potential weakness of character-level modeling. We conclude by assessing the efficiency tradeoff of character models, suggesting their usage in non-time-critical scenarios to boost translation quality.

arxiv情報

著者 Lukas Edman,Gabriele Sarti,Antonio Toral,Gertjan van Noord,Arianna Bisazza
発行日 2023-05-11 14:00:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク