The Paradox of Poetic Intent in Back-Translation: Evaluating the Quality of Large Language Models in Chinese Translation

要約

大規模な言語モデル(LLMS)の急速な進歩は、機械翻訳の景観を再構築しましたが、詩的な意図、文化遺産、中国英語翻訳の特殊な用語の取り扱いを維持することに課題が続いています。
この研究は、中国の科学用語、歴史的翻訳のパラドックス、および文学的な比phorを含む多様なコーパスを構築します。
バック翻訳とフリードマンのテストベースの評価システム(BT-FRIDE)を利用して、6つの主要なLLM(GPT-4.5、Deepseek V3など)と3つの従来の翻訳ツールにわたってBLEU、CHRF、TER、およびセマンティック類似性メトリックを評価します。
主要な調査結果には次のものが含まれます。(1)科学的要約はしばしば逆翻訳の恩恵を受けますが、従来のツールは言語的に異なるテキストでLLMを上回ります。
(2)LLMSは文化的および文学的な維持に苦労し、「詩的な意図のパラドックス」を例示しています。
(3)一部のモデルは、「逐語的な逆翻訳」を示し、緊急の記憶行動を反映しています。
(4)JiebaセグメンテーションとN-Gramの重み付けを使用した新しいBleuバリアントが提案されています。
この研究は、中国のNLPパフォーマンスの経験的評価に貢献し、AIを介した翻訳における文化的忠実度の理解を進めています。

要約(オリジナル)

The rapid advancement of large language models (LLMs) has reshaped the landscape of machine translation, yet challenges persist in preserving poetic intent, cultural heritage, and handling specialized terminology in Chinese-English translation. This study constructs a diverse corpus encompassing Chinese scientific terminology, historical translation paradoxes, and literary metaphors. Utilizing a back-translation and Friedman test-based evaluation system (BT-Fried), we evaluate BLEU, CHRF, TER, and semantic similarity metrics across six major LLMs (e.g., GPT-4.5, DeepSeek V3) and three traditional translation tools. Key findings include: (1) Scientific abstracts often benefit from back-translation, while traditional tools outperform LLMs in linguistically distinct texts; (2) LLMs struggle with cultural and literary retention, exemplifying the ‘paradox of poetic intent’; (3) Some models exhibit ‘verbatim back-translation’, reflecting emergent memory behavior; (4) A novel BLEU variant using Jieba segmentation and n-gram weighting is proposed. The study contributes to the empirical evaluation of Chinese NLP performance and advances understanding of cultural fidelity in AI-mediated translation.

arxiv情報

著者 Li Weigang,Pedro Carvalho Brom
発行日 2025-04-28 11:53:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.CL, I.2.7 パーマリンク