Towards Accurate Translation via Semantically Appropriate Application of Lexical Constraints

要約

語彙制限​​ NMT (LNMT) は、ユーザーが提供した用語を翻訳に組み込むことを目的としています。
実際的な利点にもかかわらず、既存の研究では、困難な現実世界の条件下で LNMT モデルを評価していません。
この論文では、LNMT 研究の現在の評価プロセスにある、重要だが十分に研究されていない 2 つの問題に焦点を当てます。
モデルは、トレーニング中に「同形異義語」または「目に見えない」という困難な語彙制約に対処する必要があります。
この目的を達成するために、まず同形異義語の意味を区別するための同形異義語曖昧さ回避モジュールを設計します。
さらに、我々は、事前に訓練された言語モデルからの目に見えない語彙制約に関する文脈的に豊富な情報を統合し、コピースコアの直接監視を通じてポインタネットワークのコピーメカニズムを強化するPLUMCOTを提案します。
また、「同形」および「目に見えない」語彙制約に対処するモデルの能力を評価するための評価ベンチマークである HOLLY もリリースします。
HOLLY と以前のテスト設定での実験は、私たちの方法の有効性を示しています。
PLUMCOT の効果は、「目に見えない」制約において顕著であることが示されています。
私たちのデータセットは https://github.com/papago-lab/HOLLY-benchmark から入手できます。

要約(オリジナル)

Lexically-constrained NMT (LNMT) aims to incorporate user-provided terminology into translations. Despite its practical advantages, existing work has not evaluated LNMT models under challenging real-world conditions. In this paper, we focus on two important but under-studied issues that lie in the current evaluation process of LNMT studies. The model needs to cope with challenging lexical constraints that are ‘homographs’ or ‘unseen’ during training. To this end, we first design a homograph disambiguation module to differentiate the meanings of homographs. Moreover, we propose PLUMCOT, which integrates contextually rich information about unseen lexical constraints from pre-trained language models and strengthens a copy mechanism of the pointer network via direct supervision of a copying score. We also release HOLLY, an evaluation benchmark for assessing the ability of a model to cope with ‘homographic’ and ‘unseen’ lexical constraints. Experiments on HOLLY and the previous test setup show the effectiveness of our method. The effects of PLUMCOT are shown to be remarkable in ‘unseen’ constraints. Our dataset is available at https://github.com/papago-lab/HOLLY-benchmark

arxiv情報

著者 Yujin Baek,Koanho Lee,Dayeon Ki,Hyoung-Gyu Lee,Cheonbok Park,Jaegul Choo
発行日 2023-06-21 08:08:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク