Hate Personified: Investigating the role of LLMs in content moderation

要約

ヘイト検出のような主観的なタスクでは、人によってヘイトの捉え方が異なるため、Large Language Model (LLM)の多様なグループを表現する能力は不明確である。我々は、プロンプトに追加的な文脈を含めることで、地理的プライミング、ペルソナ属性、数値情報に対するLLMの感度を包括的に分析し、様々なグループのニーズがどの程度反映されているかを評価した。2つのLLM、5つの言語、6つのデータセットで得られた知見から、ペルソナベースの属性を模倣するとアノテーションにばらつきが生じることが明らかになった。一方、地理的なシグナルを取り入れると、地域的なアライメントが向上する。また、LLMは数値アンカーに敏感であり、コミュニティベースのフラグ立ての努力と敵対者への暴露を活用できることを示している。我々の研究は、予備的なガイドラインを提供し、文化的に敏感なケースでLLMを適用する際のニュアンスを強調している。

要約(オリジナル)

For subjective tasks such as hate detection, where people perceive hate differently, the Large Language Model’s (LLM) ability to represent diverse groups is unclear. By including additional context in prompts, we comprehensively analyze LLM’s sensitivity to geographical priming, persona attributes, and numerical information to assess how well the needs of various groups are reflected. Our findings on two LLMs, five languages, and six datasets reveal that mimicking persona-based attributes leads to annotation variability. Meanwhile, incorporating geographical signals leads to better regional alignment. We also find that the LLMs are sensitive to numerical anchors, indicating the ability to leverage community-based flagging efforts and exposure to adversaries. Our work provides preliminary guidelines and highlights the nuances of applying LLMs in culturally sensitive cases.

arxiv情報

著者 Sarah Masud,Sahajpreet Singh,Viktor Hangya,Alexander Fraser,Tanmoy Chakraborty
発行日 2024-10-03 16:43:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CY パーマリンク