Improving Rare Word Translation With Dictionaries and Attention Masking

要約

機械翻訳では、希少語は、特に低リソースやドメイン外の翻訳環境において、主流のエンコーダ・デコーダアーキテクチャの問題であり続けている。人間の翻訳者は、単言語辞書や対訳辞書を使ってこの問題を解決する。本論文では、二ヶ国語辞書の定義を原文に追加し、アテンションマスキングを使用して希少語とその定義を結びつけることを提案する。希少語の定義を含めることで、最大1.0 BLEU、1.6 MacroF1まで性能が向上することがわかった。

要約(オリジナル)

In machine translation, rare words continue to be a problem for the dominant encoder-decoder architecture, especially in low-resource and out-of-domain translation settings. Human translators solve this problem with monolingual or bilingual dictionaries. In this paper, we propose appending definitions from a bilingual dictionary to source sentences and using attention masking to link together rare words with their definitions. We find that including definitions for rare words improves performance by up to 1.0 BLEU and 1.6 MacroF1.

arxiv情報

著者 Kenneth J. Sible,David Chiang
発行日 2024-09-03 16:47:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG パーマリンク