IndiBias: A Benchmark Dataset to Measure Social Biases in Language Models for Indian Context

要約

言語データにおける社会的バイアスの影響が蔓延しているため、大規模言語モデル (LLM) でこれらのバイアスを捕捉および評価するベンチマーク データセットの必要性が高まっています。
既存の取り組みは主に英語と西洋の文脈に焦点を当てており、インド独自の社会文化的ニュアンスを要約した信頼できるデータセットが不足しています。
このギャップを埋めるために、インドの文脈における社会的偏見を評価するために特別に設計された包括的なベンチマーク データセットである IndiBias を紹介します。
既存の CrowS-Pairs データセットをフィルタリングして翻訳し、インドのコンテキストに適したベンチマーク データセットをヒンディー語で作成します。
さらに、ChatGPT や InstructGPT などの LLM を活用して、インドに蔓延する多様な社会的偏見や固定観念をデータセットに追加しています。
含まれる偏見の次元には、性別、宗教、カースト、年齢、地域、外見、職業が含まれます。
また、3 つの交差次元に沿って交差バイアスに対処するためのリソースも構築します。
私たちのデータセットには、CrowS-Pairs データセットからフィルタリングされた 800 個の文と、さまざまな人口統計にわたるバイアス測定用のタプルが含まれています。
英語とヒンディー語で利用でき、既存のベンチマーク データセットと同等のサイズを提供します。
さらに、IndiBias を使用して、複数のバイアス測定基準で 10 の異なる言語モデルを比較します。
私たちは、言語モデルが交差グループの大部分にわたってより大きな偏りを示していることを観察しました。

要約(オリジナル)

The pervasive influence of social biases in language data has sparked the need for benchmark datasets that capture and evaluate these biases in Large Language Models (LLMs). Existing efforts predominantly focus on English language and the Western context, leaving a void for a reliable dataset that encapsulates India’s unique socio-cultural nuances. To bridge this gap, we introduce IndiBias, a comprehensive benchmarking dataset designed specifically for evaluating social biases in the Indian context. We filter and translate the existing CrowS-Pairs dataset to create a benchmark dataset suited to the Indian context in Hindi language. Additionally, we leverage LLMs including ChatGPT and InstructGPT to augment our dataset with diverse societal biases and stereotypes prevalent in India. The included bias dimensions encompass gender, religion, caste, age, region, physical appearance, and occupation. We also build a resource to address intersectional biases along three intersectional dimensions. Our dataset contains 800 filtered sentences from the CrowS-Pairs dataset and tuples for bias measurement across different demographics. It is made available in English and Hindi languages, providing a size comparable to existing benchmark datasets. Furthermore, using IndiBias we compare ten different language models on multiple bias measurement metrics. We observed that the language models exhibit more bias across a majority of the intersectional groups.

arxiv情報

著者 Nihar Ranjan Sahoo,Pranamya Prashant Kulkarni,Narjis Asad,Arif Ahmad,Tanu Goyal,Aparna Garimella,Pushpak Bhattacharyya
発行日 2024-03-29 12:32:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク