A Benchmark for Evaluating Machine Translation Metrics on Dialects Without Standard Orthography


これを調査するために、私たちは英語からスイスドイツ語の 2 つの方言への自動機械翻訳のための人による翻訳と人間の判断のデータセットを収集しました。
私たちの結果は、既存の指標では、特にセグメント レベルでスイスドイツ語のテキスト生成出力を確実に評価できないことを示しています。
データセット、コード、モデルはここから入手できます: https://github.com/textshuttle/dialect_eval


For sensible progress in natural language processing, it is important that we are aware of the limitations of the evaluation metrics we use. In this work, we evaluate how robust metrics are to non-standardized dialects, i.e. spelling differences in language varieties that do not have a standard orthography. To investigate this, we collect a dataset of human translations and human judgments for automatic machine translations from English to two Swiss German dialects. We further create a challenge set for dialect variation and benchmark existing metrics’ performances. Our results show that existing metrics cannot reliably evaluate Swiss German text generation outputs, especially on segment level. We propose initial design adaptations that increase robustness in the face of non-standardized dialects, although there remains much room for further improvement. The dataset, code, and models are available here: https://github.com/textshuttle/dialect_eval


著者 Noëmi Aepli,Chantal Amrhein,Florian Schottmann,Rico Sennrich
発行日 2023-11-28 15:12:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 パーマリンク