Which Demographics do LLMs Default to During Annotation?


アノテーターの人口統計と文化的背景は、テキスト アノテーションで割り当てるラベルに影響します。たとえば、年配の女性は「兄弟」に宛てられたメッセージを読むのを不快に感じるかもしれませんが、10 代の男性はそれが適切であると考えるかもしれません。
データ アノテーションに大規模言語モデル (LLM) を使用するという文脈で、この観察から 2 つの研究方向が開発されました。すなわち、(1) LLM のバイアスと固有の知識を研究すること、および (2) 人口統計情報でプロンプトを操作することによって出力に多様性を導入することです。

私たちはこれら 2 つの研究要素を組み合わせて、人口統計が与えられていない場合に LLM がどの人口統計に頼るかという質問をします。
この質問に答えるために、LLM が本質的にヒューマン アノテーターのどの属性を模倣しているかを評価します。
さらに、非人口統計条件付きプロンプトとプラセボ条件付きプロンプト (例: 「あなたは 5 番の家に住んでいるアノテーターです」) を、人口統計条件付きプロンプト (「あなたは 45 歳の男性で、ポライトネス アノテーションの専門家です」) と比較します。
. {インスタンス}をどのように評価しますか?’)。
私たちは、POPQUORN データセット上の礼儀正しさと不快さの注釈について、これらの質問を研究します。POPQUORN データセットは、これまで LLM ベースの分析には使用されていない、人口統計に基づく人間のラベルの変動を調査するために制御された方法で作成されたコーパスです。


Demographics and cultural background of annotators influence the labels they assign in text annotation — for instance, an elderly woman might find it offensive to read a message addressed to a ‘bro’, but a male teenager might find it appropriate. It is therefore important to acknowledge label variations to not under-represent members of a society. Two research directions developed out of this observation in the context of using large language models (LLM) for data annotations, namely (1) studying biases and inherent knowledge of LLMs and (2) injecting diversity in the output by manipulating the prompt with demographic information. We combine these two strands of research and ask the question to which demographics an LLM resorts to when no demographics is given. To answer this question, we evaluate which attributes of human annotators LLMs inherently mimic. Furthermore, we compare non-demographic conditioned prompts and placebo-conditioned prompts (e.g., ‘you are an annotator who lives in house number 5’) to demographics-conditioned prompts (‘You are a 45 year old man and an expert on politeness annotation. How do you rate {instance}’). We study these questions for politeness and offensiveness annotations on the POPQUORN data set, a corpus created in a controlled manner to investigate human label variations based on demographics which has not been used for LLM-based analyses so far. We observe notable influences related to gender, race, and age in demographic prompting, which contrasts with previous studies that found no such effects.


著者 Christopher Bagdon,Aidan Combs,Lynn Greschner,Roman Klinger,Jiahui Li,Sean Papay,Nadine Probol,Yarik Menchaca Resendiz,Johannes Schäfer,Aswathy Velutharambath,Sabine Weber,Amelie Wührl
発行日 2024-10-11 14:02:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク