On Translating Technical Terminology: A Translation Workflow for Machine-Translated Acronyms

要約

プロの翻訳者が文書をソース言語 (SL) からターゲット言語 (TL) に翻訳する一般的なワークフローは、自然言語処理 (NLP) の多くの言語モデルが行うこと、つまり一連の単語の次の単語を予測することに常に焦点を当てているわけではありません。
言葉の。
英語やフランス語などの高リソース言語は、BLEU や COMET などの共通の測定基準を使用してほぼ人間と同等の性能を達成していると報告されていますが、専門用語、特に頭字語の翻訳という重要なステップが抜け落ちていることがわかりました。
Google 翻訳など、一般に公開されている一部の最先端の機械翻訳システムでは、頭字語を扱う際に誤りが発生する可能性があり、調査結果では 50% もの誤りが発生する可能性があります。
この記事では、SL-TL (FR-EN) 翻訳ワークフローへの追加ステップを提案することで、MT システムの頭字語の曖昧さ回避に取り組んでいます。このステップでは、最初に一般向けに新しい頭字語コーパスを提供し、次に、ほぼ 10 を達成する検索ベースのしきい値アルゴリズムを実験します。
Google 翻訳や OpusMT と比較した場合、% 増加。

要約(オリジナル)

The typical workflow for a professional translator to translate a document from its source language (SL) to a target language (TL) is not always focused on what many language models in natural language processing (NLP) do – predict the next word in a series of words. While high-resource languages like English and French are reported to achieve near human parity using common metrics for measurement such as BLEU and COMET, we find that an important step is being missed: the translation of technical terms, specifically acronyms. Some state-of-the art machine translation systems like Google Translate which are publicly available can be erroneous when dealing with acronyms – as much as 50% in our findings. This article addresses acronym disambiguation for MT systems by proposing an additional step to the SL-TL (FR-EN) translation workflow where we first offer a new acronym corpus for public consumption and then experiment with a search-based thresholding algorithm that achieves nearly 10% increase when compared to Google Translate and OpusMT.

arxiv情報

著者 Richard Yue,John E. Ortega,Kenneth Ward Church
発行日 2024-09-26 15:18:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク