Pitfalls and Outlooks in Using COMET

要約

COMET 指標は、人間による翻訳品質の判断と強い相関があるため、機械翻訳コミュニティで道を切り開いてきました。
その成功は、品質評価用に微調整された、修正済みの事前トレーニング済み多言語モデルであることに起因しています。
ただし、これは機械学習モデルであるため、あまり知られていない新たな落とし穴も生じます。
私たちは、これらの予期しない動作を次の 3 つの側面から調査します。1) 技術的: 古いソフトウェア バージョンと計算精度。
2) データ: 空のコンテンツ、言語の不一致、テスト時の翻訳、およびトレーニング時の分布とドメインの偏り。
3) 使用法とレポート: 文献内の複数参照のサポートとモデル参照。
これらすべての問題は、COMET スコアが論文間、さらには技術設定間でさえ比較できないことを意味しており、私たちは各問題を解決するための視点を提示しました。
さらに、ソフトウェアとモデル構成の署名と適切な引用を生成できる sacreCOMET パッケージをリリースします。
この作業の目標は、コミュニティが COMET メトリクスをより適切に利用できるように支援することです。

要約(オリジナル)

The COMET metric has blazed a trail in the machine translation community, given its strong correlation with human judgements of translation quality. Its success stems from being a modified pre-trained multilingual model finetuned for quality assessment. However, it being a machine learning model also gives rise to a new set of pitfalls that may not be widely known. We investigate these unexpected behaviours from three aspects: 1) technical: obsolete software versions and compute precision; 2) data: empty content, language mismatch, and translationese at test time as well as distribution and domain biases in training; 3) usage and reporting: multi-reference support and model referencing in the literature. All of these problems imply that COMET scores are not comparable between papers or even technical setups and we put forward our perspective on fixing each issue. Furthermore, we release the sacreCOMET package that can generate a signature for the software and model configuration as well as an appropriate citation. The goal of this work is to help the community make more sound use of the COMET metric.

arxiv情報

著者 Vilém Zouhar,Pinzhen Chen,Tsz Kin Lam,Nikita Moghe,Barry Haddow
発行日 2024-09-30 13:44:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク