要約
大規模言語モデル (LLM) は、複雑なテキストを理解する際に優れた能力を発揮し、人間のような翻訳パフォーマンスへの有望な道を提供します。
しかし、この研究では、翻訳固有の理解と LLM 内の一般的な理解の間に不整合があることが明らかになりました。
この理解のずれにより、LLM は、一般的なシナリオ (QA など) では正確に理解しているいくつかの複雑な概念を誤って文字通りに翻訳してしまうことにつながります。
翻訳特有の理解を一般的な理解に合わせるために、我々は、一貫性のない理解が生じる複雑な内容に対する一般的な理解を明示的に組み込んで翻訳を導く、新しい翻訳プロセスDUAT(Difficult Words Understanding Aligned Translation)を提案します。
具体的には、DUAT は翻訳が難しい単語に対して言語間解釈を実行し、生成された解釈で翻訳を強化します。
さらに、外部ツールを再構築して、難しい単語の検出と役立つ解釈の生成における DUAT を改善しました。
私たちは、誤訳されやすいサンプルから構成される、自己構築したベンチマーク Challenge-WMT で実験を実施します。
高リソース言語と低リソース言語のペアに対する人間による評価の結果は、DUAT が理解の調整を大幅に促進し、翻訳品質 (最大 +3.85 COMET) を向上させ、翻訳の文字通り性を -25% から -51% 低下させることを示しています。
要約(オリジナル)
Large Language models (LLMs) have exhibited remarkable abilities in understanding complex texts, offering a promising path towards human-like translation performance. However, this study reveals the misalignment between the translation-specific understanding and the general understanding inside LLMs. This understanding misalignment leads to LLMs mistakenly or literally translating some complicated concepts that they accurately comprehend in the general scenarios (e.g., QA). To align the translation-specific understanding to the general one, we propose a novel translation process, DUAT (Difficult words Understanding Aligned Translation), explicitly incorporating the general understanding on the complicated content incurring inconsistent understanding to guide the translation. Specifically, DUAT performs cross-lingual interpretation for the difficult-to-translate words and enhances the translation with the generated interpretations. Furthermore, we reframe the external tools to improve DUAT in detecting difficult words and generating helpful interpretations. We conduct experiments on the self-constructed benchmark Challenge-WMT, consisting of samples that are prone to mistranslation. Human evaluation results on high-resource and low-resource language pairs indicate that DUAT significantly facilitates the understanding alignment, which improves the translation quality (up to +3.85 COMET) and reduces the literality of the translation by -25% to -51%.
arxiv情報
著者 | Yichong Huang,Baohang Li,Xiaocheng Feng,Chengpeng Fu,Wenshuai Huo,Ting Liu,Bing Qin |
発行日 | 2024-10-21 15:19:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google