要約
機械翻訳(MT)システムの急速な成長により、使用されている評価メトリクスをメタ評価する包括的な研究が必要とされている。残念なことに、研究のほとんどは、主に英語などの高リソース言語に焦点を当てており、その観察結果は必ずしも他の言語に当てはまるとは限らない。10億人以上の話者を持つインドの言語は、言語学的に英語とは異なっており、これまでのところ、英語からインドの言語へのMTシステムの評価に関する体系的な研究は行われていない。本稿では、このギャップを埋めるために、5つのインド言語と7つのMTシステムにまたがる7000の細かいアノテーションからなるMQMデータセットを作成し、それを使ってアノテーターのスコアと既存の自動メトリクスを使って得られたスコアの相関関係を確立する。その結果、COMETのような事前に訓練されたメトリクスが、アノテーターのスコアと最も高い相関関係を持つことがわかった。さらに、これらのメトリクスはインド言語の流暢さに基づくエラーを適切に捉えておらず、インド言語に特化したメトリクスの開発が必要であることがわかった。我々のデータセットと分析が、この分野のさらなる研究の促進に役立つことを願っている。
要約(オリジナル)
The rapid growth of machine translation (MT) systems has necessitated comprehensive studies to meta-evaluate evaluation metrics being used, which enables a better selection of metrics that best reflect MT quality. Unfortunately, most of the research focuses on high-resource languages, mainly English, the observations for which may not always apply to other languages. Indian languages, having over a billion speakers, are linguistically different from English, and to date, there has not been a systematic study of evaluating MT systems from English into Indian languages. In this paper, we fill this gap by creating an MQM dataset consisting of 7000 fine-grained annotations, spanning 5 Indian languages and 7 MT systems, and use it to establish correlations between annotator scores and scores obtained using existing automatic metrics. Our results show that pre-trained metrics, such as COMET, have the highest correlations with annotator scores. Additionally, we find that the metrics do not adequately capture fluency-based errors in Indian languages, and there is a need to develop metrics focused on Indian languages. We hope that our dataset and analysis will help promote further research in this area.
arxiv情報
著者 | Ananya B. Sai,Vignesh Nagarajan,Tanay Dixit,Raj Dabre,Anoop Kunchukuttan,Pratyush Kumar,Mitesh M. Khapra |
発行日 | 2023-07-03 14:26:38+00:00 |
arxivサイト | arxiv_id(pdf) |