Cross-lingual neural fuzzy matching for exploiting target-language monolingual corpora in computer-aided translation

要約

翻訳メモリ (MT) に基づくコンピュータ支援翻訳 (CAT) ツールは、プロの翻訳者の翻訳ワークフローで重要な役割を果たしています。
ただし、ドメイン内の単一言語コーパスと比較してドメイン内 TM の可用性が低いため、多くの翻訳タスクでの採用が制限されています。
この論文では、TM だけでなく、ドメイン内ターゲット言語 (TL) の単一言語コーパスも利用し、従来の TM ベースの CAT によって提供されるものと同様の機能を可能にすることで、この制限を克服することを目的とした新しいニューラル アプローチを紹介します。
ツール。
私たちのアプローチは、TL 単言語コーパスから翻訳提案を取得するための言語間の文埋め込みと、編集後の労力を推定するためのニューラル モデルに依存しています。
この論文は、4 つの言語ペアでのこれらの手法の自動評価を示しています。これは、私たちのアプローチが TM ベースの CAT 環境で単一言語テキストをうまく活用でき、有用な翻訳提案の量が増加すること、および編集後の予測のためのニューラル モデルが有効であることを示しています。
この努力により、単言語コーパスと TM から通常の方法で取得した翻訳提案を組み合わせることが可能になります。
単一の言語ペアに対して実行された人間による評価は、自動評価の結果を確認し、私たちのアプローチで取得された翻訳提案が自動評価で示されるものよりも有用であることを示しているようです。

要約(オリジナル)

Computer-aided translation (CAT) tools based on translation memories (MT) play a prominent role in the translation workflow of professional translators. However, the reduced availability of in-domain TMs, as compared to in-domain monolingual corpora, limits its adoption for a number of translation tasks. In this paper, we introduce a novel neural approach aimed at overcoming this limitation by exploiting not only TMs, but also in-domain target-language (TL) monolingual corpora, and still enabling a similar functionality to that offered by conventional TM-based CAT tools. Our approach relies on cross-lingual sentence embeddings to retrieve translation proposals from TL monolingual corpora, and on a neural model to estimate their post-editing effort. The paper presents an automatic evaluation of these techniques on four language pairs that shows that our approach can successfully exploit monolingual texts in a TM-based CAT environment, increasing the amount of useful translation proposals, and that our neural model for estimating the post-editing effort enables the combination of translation proposals obtained from monolingual corpora and from TMs in the usual way. A human evaluation performed on a single language pair confirms the results of the automatic evaluation and seems to indicate that the translation proposals retrieved with our approach are more useful than what the automatic evaluation shows.

arxiv情報

著者 Miquel Esplà-Gomis,Víctor M. Sánchez-Cartagena,Juan Antonio Pérez-Ortiz,Felipe Sánchez-Martínez
発行日 2024-01-16 14:00:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク