Remedy: Learning Machine Translation Evaluation from Human Preferences with Reward Modeling

要約

MT評価の重要な課題は、人間の評価の固有のノイズと矛盾です。
回帰ベースのニューラルメトリックはこのノイズに苦労していますが、LLMSの促しはシステムレベルの評価で有望であるが、セグメントレベルではパフォーマンスが低いことを示しています。
この作業では、翻訳評価を報酬モデリングタスクとして再定式化する新しいMTメトリックフレームワークであるRemedyを提案します。
不完全な人間の評価を直接回帰する代わりに、Remedyはペアワイズ優先データを使用して相対翻訳の品質を学習し、より信頼性の高い評価をもたらします。
WMT22-24共有タスク(39の言語ペア、111 MTシステム)を横切る広範な実験では、Remedyはセグメントレベルとシステムレベルの両方の評価で最先端のパフォーマンスを達成します。
具体的には、Remedy-9Bは、Metricx-13B、Xcomet-Ensemble、Gemba-Gpt-4、Palm-540B、Finetuned Palm2など、より大きなWMT勝者と大規模な閉鎖LLMを上回ります。
さらなる分析により、Remedyは翻訳エラーの検出と低品質の翻訳の評価に優れた能力を提供することが示されています。

要約(オリジナル)

A key challenge in MT evaluation is the inherent noise and inconsistency of human ratings. Regression-based neural metrics struggle with this noise, while prompting LLMs shows promise at system-level evaluation but performs poorly at segment level. In this work, we propose ReMedy, a novel MT metric framework that reformulates translation evaluation as a reward modeling task. Instead of regressing on imperfect human ratings directly, ReMedy learns relative translation quality using pairwise preference data, resulting in a more reliable evaluation. In extensive experiments across WMT22-24 shared tasks (39 language pairs, 111 MT systems), ReMedy achieves state-of-the-art performance at both segment- and system-level evaluation. Specifically, ReMedy-9B surpasses larger WMT winners and massive closed LLMs such as MetricX-13B, XCOMET-Ensemble, GEMBA-GPT-4, PaLM-540B, and finetuned PaLM2. Further analyses demonstrate that ReMedy delivers superior capability in detecting translation errors and evaluating low-quality translations.

arxiv情報

著者 Shaomu Tan,Christof Monz
発行日 2025-04-18 11:11:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク