How (Not) to Use Sociodemographic Information for Subjective NLP Tasks

要約

アノテーターの社会人口学的背景 (性別、年齢、学歴などの個人構成) は、ヘイトスピーチ検出などの主観的な NLP タスクに取り組む際の決定に強い影響を与えます。
多くの場合、背景が異質なため、意見の相違が大きくなります。
この変動をモデル化するために、最近の研究では社会人口学的プロンプティング、つまり特定の社会人口学的プロファイルを持つ人間が与えるであろう回答に向けてプロンプトベースのモデルの出力を誘導する手法が研究されています。
ただし、入手可能な NLP 文献は、この手法の有効性について意見が一致していません。どのタスクやシナリオに役立つかは不明のままで、評価は特定のタスクのみに限定されています。
私たちは、今日の社会人口学的プロンプトに関する最大かつ最も包括的な研究を提示することで、この研究ギャップに対処します。
具体的には、7 つのデータセットと 6 つの命令調整モデル ファミリにわたるいくつかの即時定式化を評価します。
我々は、(1) 社会人口学的プロンプトは主観的な NLP タスクにおけるゼロショット学習を改善するのに有益である一方で、(2) その結果はモデルの種類、サイズ、データセットによって大きく異なり、(3) に関して大きな差異が生じる可能性があることを発見しました。
配合を促すため。
したがって、社会人口学的プロンプトは、社会人口学的に異質なアノテーターのグループによる従来のデータ アノテーションの信頼できる代理ではありません。
代わりに、(4) 曖昧なインスタンスを識別するためにこれを使用し、より多くの情報に基づいたアノテーションの取り組みを行うことを提案します。

要約(オリジナル)

Annotators’ sociodemographic backgrounds (i.e., the individual compositions of their gender, age, educational background, etc.) have a strong impact on their decisions when working on subjective NLP tasks, such as hate speech detection. Often, heterogeneous backgrounds result in high disagreements. To model this variation, recent work has explored sociodemographic prompting, a technique, which steers the output of prompt-based models towards answers that humans with specific sociodemographic profiles would give. However, the available NLP literature disagrees on the efficacy of this technique — it remains unclear, for which tasks and scenarios it can help and evaluations are limited to specific tasks only. We address this research gap by presenting the largest and most comprehensive study of sociodemographic prompting today. Concretely, we evaluate several prompt formulations across seven datasets and six instruction-tuned model families. We find that (1) while sociodemographic prompting can be beneficial for improving zero-shot learning in subjective NLP tasks, (2) its outcomes largely vary for different model types, sizes, and datasets, (3) are subject to large variance with regards to prompt formulations. Thus, sociodemographic prompting is not a reliable proxy for traditional data annotation with a sociodemographically heterogeneous group of annotators. Instead, we propose (4) to use it for identifying ambiguous instances resulting in more informed annotation efforts.

arxiv情報

著者 Tilman Beck,Hendrik Schuff,Anne Lauscher,Iryna Gurevych
発行日 2023-09-13 15:42:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク