要約
多言語データセットの文化的偏見は、世界的なベンチマークとしての有効性にとって重大な課題を引き起こします。
これらのバイアスは言語だけでなく、質問を解釈するために必要な文化的知識にも起因しており、MMLU のような翻訳されたデータセットの実用性が低下します。
さらに、翻訳では、ターゲット言語での質問の意味や明確さを歪める可能性のあるアーチファクトがしばしば導入されます。
多言語評価の一般的な方法は、機械翻訳された評価セットに依存することですが、データセットを単に翻訳するだけでは、これらの課題に対処するには不十分です。
この研究では、これらの両方の問題が多言語評価とその後のモデルのパフォーマンスに及ぼす影響を追跡します。
最先端のオープンな独自モデルに対する私たちの大規模な評価は、MMLU の進歩が西洋中心の概念の学習に大きく依存しており、全質問の 28% が文化的に敏感な知識を必要とすることを示しています。
さらに、地理的知識を必要とする質問では、なんと 84.9% が北米またはヨーロッパ地域に焦点を当てています。
モデル評価のランキングは、文化的に敏感であると注釈が付けられた質問の全体部分で評価されるかサブセットで評価されるかによって変化し、翻訳された MMLU に盲目的に依存するとモデルのランキングに歪みが生じることがわかります。
当社は、42 言語にわたる評価範囲を備えた改良型 MMLU である Global-MMLU をリリースします。報酬を支払った専門家やコミュニティのアノテーターと協力して翻訳品質を検証するとともに、元のデータセットに存在する文化的偏見を厳密に評価することで、全体的な品質が向上します。
この包括的な Global-MMLU セットには、より全体的で完全な評価を可能にするために、文化的に敏感な、および文化的に依存しないとラベル付けされた指定されたサブセットも含まれています。
要約(オリジナル)
Cultural biases in multilingual datasets pose significant challenges for their effectiveness as global benchmarks. These biases stem not only from language but also from the cultural knowledge required to interpret questions, reducing the practical utility of translated datasets like MMLU. Furthermore, translation often introduces artifacts that can distort the meaning or clarity of questions in the target language. A common practice in multilingual evaluation is to rely on machine-translated evaluation sets, but simply translating a dataset is insufficient to address these challenges. In this work, we trace the impact of both of these issues on multilingual evaluations and ensuing model performances. Our large-scale evaluation of state-of-the-art open and proprietary models illustrates that progress on MMLU depends heavily on learning Western-centric concepts, with 28% of all questions requiring culturally sensitive knowledge. Moreover, for questions requiring geographic knowledge, an astounding 84.9% focus on either North American or European regions. Rankings of model evaluations change depending on whether they are evaluated on the full portion or the subset of questions annotated as culturally sensitive, showing the distortion to model rankings when blindly relying on translated MMLU. We release Global-MMLU, an improved MMLU with evaluation coverage across 42 languages — with improved overall quality by engaging with compensated professional and community annotators to verify translation quality while also rigorously evaluating cultural biases present in the original dataset. This comprehensive Global-MMLU set also includes designated subsets labeled as culturally sensitive and culturally agnostic to allow for more holistic, complete evaluation.
arxiv情報
著者 | Shivalika Singh,Angelika Romanou,Clémentine Fourrier,David I. Adelani,Jian Gang Ngui,Daniel Vila-Suero,Peerat Limkonchotiwat,Kelly Marchisio,Wei Qi Leong,Yosephine Susanto,Raymond Ng,Shayne Longpre,Wei-Yin Ko,Madeline Smith,Antoine Bosselut,Alice Oh,Andre F. T. Martins,Leshem Choshen,Daphne Ippolito,Enzo Ferrante,Marzieh Fadaee,Beyza Ermis,Sara Hooker |
発行日 | 2024-12-04 13:27:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google