要約
生成大規模言語モデル (LLM) は、有害なバイアスと固定観念を示すことが示されています。
安全性の微調整は通常英語で行われますが、実際に行われる場合でも、これらのモデルはさまざまな言語を話す人によって使用されています。
これらのモデルのパフォーマンスが言語間で一貫性がなく、ユーザーの人口統計的要因に基づいて差別されているという既存の証拠があります。
これを動機として、文化的な違いとタスクの正確さを制御しながら、LLM が示す社会的固定観念が、LLM を促すために使用される言語の機能として異なるかどうかを調査します。
この目的を達成するために、オランダ語、スペイン語、トルコ語に拡張された英語 BBQ データセットの慎重に精選されたバージョンである MBBQ (質問応答のための多言語バイアス ベンチマーク) を紹介します。これは、これらの言語に共通して保持されている固定観念を測定します。
さらに、並列制御データセットで MBBQ を補完し、バイアスとは無関係に質問応答タスクのタスクパフォーマンスを測定します。
いくつかのオープンソースおよび独自の LLM に基づいた私たちの結果は、文化的変化を調整した場合でも、一部の非英語言語は英語よりも偏見に悩まされることを裏付けています。
さらに、最も正確なモデルを除くすべてのモデルについて、バイアス動作に言語間の大きな違いがあることが観察されました。
MBBQ のリリースにより、多言語環境における偏見に関するさらなる研究が促進されることを期待しています。
データセットとコードは https://github.com/Veranep/MBBQ で入手できます。
要約(オリジナル)
Generative large language models (LLMs) have been shown to exhibit harmful biases and stereotypes. While safety fine-tuning typically takes place in English, if at all, these models are being used by speakers of many different languages. There is existing evidence that the performance of these models is inconsistent across languages and that they discriminate based on demographic factors of the user. Motivated by this, we investigate whether the social stereotypes exhibited by LLMs differ as a function of the language used to prompt them, while controlling for cultural differences and task accuracy. To this end, we present MBBQ (Multilingual Bias Benchmark for Question-answering), a carefully curated version of the English BBQ dataset extended to Dutch, Spanish, and Turkish, which measures stereotypes commonly held across these languages. We further complement MBBQ with a parallel control dataset to measure task performance on the question-answering task independently of bias. Our results based on several open-source and proprietary LLMs confirm that some non-English languages suffer from bias more than English, even when controlling for cultural shifts. Moreover, we observe significant cross-lingual differences in bias behaviour for all except the most accurate models. With the release of MBBQ, we hope to encourage further research on bias in multilingual settings. The dataset and code are available at https://github.com/Veranep/MBBQ.
arxiv情報
著者 | Vera Neplenbroek,Arianna Bisazza,Raquel Fernández |
発行日 | 2024-06-18 15:33:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google