要約
COMETメトリクスは、その導入以来、翻訳品質に関する人間の判断と強い相関関係があることから、機械翻訳のコミュニティで道を切り開いてきました。その成功は、品質評価用に微調整された、修正済みの事前学習済み多言語モデルであることに起因しています。しかし、機械学習モデルであるため、広く知られていない落とし穴も新たに生じている。これらの予期せぬ動作を3つの側面から調査する:1) 技術的な問題:旧式のソフトウェアのバージョンと計算精度、2) データ:テスト時の空コンテンツ、言語ミスマッチ、翻訳ミス、およびトレーニング時の分布とドメインの偏り、3) 使用法とレポート:文献における複数参照のサポートとモデルの参照。これらの問題はすべて、COMETのスコアが論文間や技術セットアップ間で比較できないことを意味しており、各問題を解決するための我々の見解を提示する。さらに、ソフトウェアとモデル構成の署名と適切な引用を生成できるSacreCOMETパッケージをリリースする。この研究の目的は、コミュニティが COMET メトリックをより健全に利用できるようにすることである。
要約(オリジナル)
Since its introduction, the COMET metric has blazed a trail in the machine translation community, given its strong correlation with human judgements of translation quality. Its success stems from being a modified pre-trained multilingual model finetuned for quality assessment. However, it being a machine learning model also gives rise to a new set of pitfalls that may not be widely known. We investigate these unexpected behaviours from three aspects: 1) technical: obsolete software versions and compute precision; 2) data: empty content, language mismatch, and translationese at test time as well as distribution and domain biases in training; 3) usage and reporting: multi-reference support and model referencing in the literature. All of these problems imply that COMET scores is not comparable between papers or even technical setups and we put forward our perspective on fixing each issue. Furthermore, we release the SacreCOMET package that can generate a signature for the software and model configuration as well as an appropriate citation. The goal of this work is to help the community make more sound use of the COMET metric.
arxiv情報
著者 | Vilém Zouhar,Pinzhen Chen,Tsz Kin Lam,Nikita Moghe,Barry Haddow |
発行日 | 2024-09-02 08:18:52+00:00 |
arxivサイト | arxiv_id(pdf) |