要約
ユーザー生成コンテンツ(UGC)の機械翻訳(MT)の評価には、ソースからの感情のニュアンスがターゲットテキストに保存されているかどうかを確認するなどの独自の課題が含まれます。
最近の研究では、参照翻訳に依存することなく、中国のUGCのMT品質を自動的に評価するために、感情関連のデータセット、フレームワーク、モデルが提案されています。
ただし、これらのモデルが感情的なニュアンスを維持するという課題に堅牢であるかどうかは、ほとんど説明されていません。
このギャップに対処するために、自己情報の概念を活用することにより、感情に関連する挑戦的な中国の同性愛者の言葉を生み出す情報理論に触発された新しい方法を紹介します。
私たちのアプローチは、感情の保存に翻訳エラーを引き起こすことが観察された同性愛者を生成し、感情的なUGCに取り組むときにMTシステムとその評価方法の脆弱性を明らかにします。
これらの生成された同性愛者の品質に対する人間の評価を使用して、方法の有効性を評価し、それを既存の同性愛者と比較して、私たちの方法が人間の判断とより高い相関を達成することを示しています。
生成された中国の同性愛者は、その手動翻訳とともに、摂動を生成し、マルチタスク学習、多言語モデルの微調整されたバリアント、大規模言語モデル(LLM)を使用してトレーニングされたモデルを含む既存の品質評価モデルの堅牢性を調査するために利用されます。
私たちの結果は、サイズが大きいLLMがそのような摂動に対してより高い安定性と堅牢性を示すことを示しています。
再現性とさらなる研究のためにデータとコードをリリースします。
要約(オリジナル)
Evaluating machine translation (MT) of user-generated content (UGC) involves unique challenges such as checking whether the nuance of emotions from the source are preserved in the target text. Recent studies have proposed emotion-related datasets, frameworks and models to automatically evaluate MT quality of Chinese UGC, without relying on reference translations. However, whether these models are robust to the challenge of preserving emotional nuances has been left largely unexplored. To address this gap, we introduce a novel method inspired by information theory which generates challenging Chinese homophone words related to emotions, by leveraging the concept of self-information. Our approach generates homophones that were observed to cause translation errors in emotion preservation, and exposes vulnerabilities in MT systems and their evaluation methods when tackling emotional UGC. We evaluate the efficacy of our method using human evaluation for the quality of these generated homophones, and compare it with an existing one, showing that our method achieves higher correlation with human judgments. The generated Chinese homophones, along with their manual translations, are utilized to generate perturbations and to probe the robustness of existing quality evaluation models, including models trained using multi-task learning, fine-tuned variants of multilingual language models, as well as large language models (LLMs). Our results indicate that LLMs with larger size exhibit higher stability and robustness to such perturbations. We release our data and code for reproducibility and further research.
arxiv情報
著者 | Shenbin Qian,Constantin Orăsan,Diptesh Kanojia,Félix do Carmo |
発行日 | 2025-03-20 13:56:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google