A Benchmark for Evaluating Machine Translation Metrics on Dialects Without Standard Orthography

要約

自然言語処理を賢明に進歩させるためには、使用する評価指標の限界を認識することが重要です。
この研究では、標準化されていない方言、つまり標準正書法を持たない言語品種におけるスペルの違いに対して指標がどの程度堅牢であるかを評価します。
これを調査するために、私たちは英語からスイスドイツ語の 2 つの方言への自動機械翻訳のための人による翻訳と人間の判断のデータセットを収集しました。
さらに、方言のバリエーションに対する課題セットを作成し、既存の指標のパフォーマンスをベンチマークします。
私たちの結果は、既存の指標では、特にセグメント レベルでスイスドイツ語のテキスト生成出力を確実に評価できないことを示しています。
さらなる改善の余地はまだ多く残っていますが、標準化されていない方言に直面した場合の堅牢性を高める初期設計の適応を提案します。
データセット、コード、モデルはここから入手できます: https://github.com/textshuttle/dialect_eval

要約(オリジナル)

For sensible progress in natural language processing, it is important that we are aware of the limitations of the evaluation metrics we use. In this work, we evaluate how robust metrics are to non-standardized dialects, i.e. spelling differences in language varieties that do not have a standard orthography. To investigate this, we collect a dataset of human translations and human judgments for automatic machine translations from English to two Swiss German dialects. We further create a challenge set for dialect variation and benchmark existing metrics’ performances. Our results show that existing metrics cannot reliably evaluate Swiss German text generation outputs, especially on segment level. We propose initial design adaptations that increase robustness in the face of non-standardized dialects, although there remains much room for further improvement. The dataset, code, and models are available here: https://github.com/textshuttle/dialect_eval

arxiv情報

著者 Noëmi Aepli,Chantal Amrhein,Florian Schottmann,Rico Sennrich
発行日 2023-11-28 15:12:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 パーマリンク