Detecting Linguistic Indicators for Stereotype Assessment with Large Language Models

要約

社会的カテゴリとステレオタイプは言語に組み込まれており、データバイアスを大規模な言語モデル(LLM)に導入できます。
保護者にもかかわらず、これらのバイアスはモデルの動作に持続することが多く、潜在的に出力の表現上の危害につながる可能性があります。
社会言語研究は、ステレオタイプの形成に関する貴重な洞察を提供しますが、ステレオタイプ検出のためのNLPアプローチはこの基盤をめったに引き付けず、しばしば客観性、精度、解釈可能性を欠いています。
このギャップを埋めるために、この作業では、文のステレオタイプの言語指標を検出および定量化する新しいアプローチを提案します。
言語の強力な社会的カテゴリの定式化とステレオタイプを示す社会的カテゴリとステレオタイプコミュニケーション(SCSC)フレームワークから言語指標を導き出し、それらを使用して分類スキームを構築します。
このアプローチを自動化するために、コンテキスト内学習を使用してさまざまなLLMを指示して、LLMが言語特性を調べ、微調整された評価の基礎を提供する文にアプローチを適用します。
異なる言語指標の重要性の経験的評価に基づいて、ステレオタイプの言語指標を測定するスコアリング関数を学びます。
ステレオタイプの文章の注釈は、これらの指標がこれらの文に存在し、ステレオタイプの強さを説明していることを示しています。
モデルパフォーマンスの観点から、我々の結果は、モデルが一般に、カテゴリを示すために使用されるカテゴリラベルの言語指標の検出と分類においてうまく機能することを示していますが、関連する行動と特性を正しく評価するのに苦労することがあります。
プロンプト内でより少ないショットの例を使用すると、パフォーマンスが大幅に向上します。
llama-3.3-70b-instructとgpt-4は、mixtral-8x7b-instruct、gpt-4-mini、llama-3.1-8b-instructの結果を上回る同等の結果を達成するため、モデルのパフォーマンスはサイズとともに増加します。

要約(オリジナル)

Social categories and stereotypes are embedded in language and can introduce data bias into Large Language Models (LLMs). Despite safeguards, these biases often persist in model behavior, potentially leading to representational harm in outputs. While sociolinguistic research provides valuable insights into the formation of stereotypes, NLP approaches for stereotype detection rarely draw on this foundation and often lack objectivity, precision, and interpretability. To fill this gap, in this work we propose a new approach that detects and quantifies the linguistic indicators of stereotypes in a sentence. We derive linguistic indicators from the Social Category and Stereotype Communication (SCSC) framework which indicate strong social category formulation and stereotyping in language, and use them to build a categorization scheme. To automate this approach, we instruct different LLMs using in-context learning to apply the approach to a sentence, where the LLM examines the linguistic properties and provides a basis for a fine-grained assessment. Based on an empirical evaluation of the importance of different linguistic indicators, we learn a scoring function that measures the linguistic indicators of a stereotype. Our annotations of stereotyped sentences show that these indicators are present in these sentences and explain the strength of a stereotype. In terms of model performance, our results show that the models generally perform well in detecting and classifying linguistic indicators of category labels used to denote a category, but sometimes struggle to correctly evaluate the associated behaviors and characteristics. Using more few-shot examples within the prompts, significantly improves performance. Model performance increases with size, as Llama-3.3-70B-Instruct and GPT-4 achieve comparable results that surpass those of Mixtral-8x7B-Instruct, GPT-4-mini and Llama-3.1-8B-Instruct.

arxiv情報

著者 Rebekka Görge,Michael Mock,Héctor Allende-Cid
発行日 2025-02-26 14:15:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク