要約
マルチソースの入力戦略が機械翻訳(MT)品質に与える影響を調査し、GPT-4O(LLM)であるGPT-4Oを比較し、従来の多言語ニューラル機械翻訳(NMT)システムと比較します。
文脈的な手がかりとして中間言語翻訳を使用して、ポルトガル語への英語と中国の翻訳を強化する際の有効性を評価します。
結果は、コンテキスト情報がドメイン固有のデータセットの翻訳品質を大幅に向上させ、言語的に遠い言語ペアの潜在的に潜在的に改善し、高い言語の変動性を持つベンチマークで見られるリターンが減少することを示唆しています。
さらに、NMTシステム内で適用するマルチソースアプローチである浅い融合は、高リソース言語を他の翻訳ペアのコンテキストとして使用すると、戦略的コンテキスト言語選択の重要性を強調する場合、改善された結果を示すことを実証します。
要約(オリジナル)
We explore the impact of multi-source input strategies on machine translation (MT) quality, comparing GPT-4o, a large language model (LLM), with a traditional multilingual neural machine translation (NMT) system. Using intermediate language translations as contextual cues, we evaluate their effectiveness in enhancing English and Chinese translations into Portuguese. Results suggest that contextual information significantly improves translation quality for domain-specific datasets and potentially for linguistically distant language pairs, with diminishing returns observed in benchmarks with high linguistic variability. Additionally, we demonstrate that shallow fusion, a multi-source approach we apply within the NMT system, shows improved results when using high-resource languages as context for other translation pairs, highlighting the importance of strategic context language selection.
arxiv情報
著者 | Lia Shahnazaryan,Patrick Simianer,Joern Wuebker |
発行日 | 2025-03-10 11:23:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google