要約
ステレオタイプは非常に悪質であることが知られており、その発見は極めて重要である。しかし、現在の研究では、LLMにおけるステレオタイプ・バイアスの検出と評価に主眼が置かれており、ステレオタイプの研究は初期段階にとどまっている。多くの研究は、ステレオタイプとステレオタイプ・バイアスを明確に区別できておらず、この分野の研究の進展を著しく遅らせている。ステレオタイプとアンチ・ステレオタイプの検出は、社会に関する知識を必要とする問題であり、それゆえ、責任あるAIにおいて最も困難な分野の一つである。本研究では、この課題を調査し、4つのタプルの定義を提案し、ステレオタイプ、反ステレオタイプ、ステレオタイプ的バイアス、バイアスを区別する正確な用語を提供し、それらの様々な側面に対する貴重な洞察を提供する。本論文では、StereoSetやWinoQueerのような現在のデータセットを最適に利用することで、このタスクのためにキュレートされた高品質のベンチマークデータセットであるStereoDetectを提案する。我々は、10B未満のパラメータを持つ推論のための言語モデルが、しばしばアンチステレオタイプを検出する際に混乱することを実証する。また、ステレオタイプ検出のための他の現行モデルと我々のモデルを比較することで、十分にキュレーションされたデータセットの重要性を示す。データセットとコードはhttps://github.com/KaustubhShejole/StereoDetect。
要約(オリジナル)
Stereotypes are known to be highly pernicious, making their detection critically important. However, current research predominantly focuses on detecting and evaluating stereotypical biases in LLMs, leaving the study of stereotypes in its early stages. Many studies have failed to clearly distinguish between stereotypes and stereotypical biases, which has significantly slowed progress in advancing research in this area. Stereotype and anti-stereotype detection is a problem that requires knowledge of society; hence, it is one of the most difficult areas in Responsible AI. This work investigates this task, where we propose a four-tuple definition and provide precise terminology distinguishing stereotype, anti-stereotype, stereotypical bias, and bias, offering valuable insights into their various aspects. In this paper, we propose StereoDetect, a high-quality benchmarking dataset curated for this task by optimally utilizing current datasets such as StereoSet and WinoQueer, involving a manual verification process and the transfer of semantic information. We demonstrate that language models for reasoning with fewer than 10B parameters often get confused when detecting anti-stereotypes. We also demonstrate the critical importance of well-curated datasets by comparing our model with other current models for stereotype detection. The dataset and code is available at https://github.com/KaustubhShejole/StereoDetect.
arxiv情報
著者 | Kaustubh Shivshankar Shejole,Pushpak Bhattacharyya |
発行日 | 2025-04-04 11:14:38+00:00 |
arxivサイト | arxiv_id(pdf) |