要約
機械翻訳の下流アプリケーションでは用語の正確さが重要であり、これを保証する一般的な方法は、翻訳システムに用語の制約を挿入することです。
WMT 2023 用語翻訳タスクへの提出では、ドメインに依存せず、最小限の手動作業で済む、翻訳してから洗練するアプローチを採用しています。
最初に用語認識モデルをトレーニングするために、単語のアライメントから得られた擬似用語翻訳でランダムなソース単語に注釈を付けます。
さらに、2 つの後処理方法を検討します。
まず、アライメント プロセスを使用して、用語の制約に違反しているかどうかを検出し、違反している場合は、違反している単語を否定的に制約して再デコードします。
あるいは、大規模な言語モデルを活用して、用語上の制約を与えることで仮説を洗練します。
結果は、私たちの用語認識モデルが用語を効果的に組み込むことを学習し、大規模な言語モデルの改良プロセスによって用語の想起がさらに向上する可能性があることを示しています。
要約(オリジナル)
Terminology correctness is important in the downstream application of machine translation, and a prevalent way to ensure this is to inject terminology constraints into a translation system. In our submission to the WMT 2023 terminology translation task, we adopt a translate-then-refine approach which can be domain-independent and requires minimal manual efforts. We annotate random source words with pseudo-terminology translations obtained from word alignment to first train a terminology-aware model. Further, we explore two post-processing methods. First, we use an alignment process to discover whether a terminology constraint has been violated, and if so, we re-decode with the violating word negatively constrained. Alternatively, we leverage a large language model to refine a hypothesis by providing it with terminology constraints. Results show that our terminology-aware model learns to incorporate terminologies effectively, and the large language model refinement process can further improve terminology recall.
arxiv情報
| 著者 | Nikolay Bogoychev,Pinzhen Chen |
| 発行日 | 2023-10-09 16:08:23+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google