Adding Chocolate to Mint: Mitigating Metric Interference in Machine Translation

要約

自動メトリックがますます強くなり、広く採用されるにつれて、モデル開発中に意図せずに「メトリックを賭ける」リスクが上昇します。
この問題は、メトリック干渉(MINT)、つまり、モデルの調整と評価の両方に同じまたは関連するメトリックの使用によって引き起こされます。
Mintは、実務家をシステムのパフォーマンスについて過度に最適であるように誤っていることができます。システム出力が干渉メトリックの関数になると、推定された品質は人間の判断との相関を失います。
この作業では、トレーニングデータのフィルタリングと品質信号の解読というマシン翻訳関連のタスクにおけるMINTの2つの一般的なケースを分析します。
重要なことに、Mintは、メトリックが直接最適化されていない場合でも、インスタンスレベルのメトリックスコアを強く歪めていることがわかりました。チューニングには使用されていない評価に異なるが関連するメトリックを活用するという一般的な戦略に疑問を投げかけることです。
この問題に対処するために、MintJust、Mintの下でより信頼できる評価の方法を提案します。
WMT24 MT共有タスクテストセットでは、MintAddadjustは、特に高品質のシステムでは、言語のペアの大部分にわたる最先端のメトリックよりも正確に翻訳とシステムをランク付けします。
さらに、MintAddadjustは、主催者が使用するアンサンブルメソッドであるAutorankを上回ります。

要約(オリジナル)

As automatic metrics become increasingly stronger and widely adopted, the risk of unintentionally ‘gaming the metric’ during model development rises. This issue is caused by metric interference (Mint), i.e., the use of the same or related metrics for both model tuning and evaluation. Mint can misguide practitioners into being overoptimistic about the performance of their systems: as system outputs become a function of the interfering metric, their estimated quality loses correlation with human judgments. In this work, we analyze two common cases of Mint in machine translation-related tasks: filtering of training data, and decoding with quality signals. Importantly, we find that Mint strongly distorts instance-level metric scores, even when metrics are not directly optimized for — questioning the common strategy of leveraging a different, yet related metric for evaluation that is not used for tuning. To address this problem, we propose MintAdjust, a method for more reliable evaluation under Mint. On the WMT24 MT shared task test set, MintAdjust ranks translations and systems more accurately than state-of-the-art-metrics across a majority of language pairs, especially for high-quality systems. Furthermore, MintAdjust outperforms AutoRank, the ensembling method used by the organizers.

arxiv情報

著者 José Pombal,Nuno M. Guerreiro,Ricardo Rei,André F. T. Martins
発行日 2025-03-11 11:40:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク