要約
大規模言語モデル (LLM) は、データ アノテーション、合成データの作成、対話など、人間中心の社会科学タスクで使用されることが増えています。
ただし、これらのタスクは非常に主観的であり、環境、態度、信念、生きた経験などの人的要因に依存します。
したがって、これらのタスクに LLM (そのような人的要因を持たない) を採用すると、データの変動がなくなり、人間の経験の多様性を反映できなくなる可能性があります。
この論文では、人間のようなペルソナで LLM を促し、モデルに特定の人間であるかのように回答を求める役割を検討します。
これは、正確な人口統計、政治的信念、実際の経験を使用して明示的に行われるか、特定の集団に普及している名前を介して暗黙的に行われます。
次に、LLM ペルソナは、(1) 主観的な注釈タスク (毒性の検出など) および (2) 信念生成タスクによって評価されます。どちらのタスクも人的要因によって異なることが知られています。
私たちは、明示的なペルソナと暗黙的なペルソナの影響を調査し、LLM がどのヒューマン要因を認識して反応するかを調査します。
結果は、明示的な LLM ペルソナは既知の人間のバイアスを再現するときにさまざまな結果を示すが、一般に暗黙のバイアスを実証できないことを示しています。
私たちは、LLM は人々の話し方の統計的パターンを捉える可能性はあるものの、一般に複雑な相互作用や人間の認識の微妙さをモデル化することができず、社会科学への応用における LLM の有効性が制限される可能性があると結論付けています。
要約(オリジナル)
Large language models (LLMs) are increasingly being used in human-centered social scientific tasks, such as data annotation, synthetic data creation, and engaging in dialog. However, these tasks are highly subjective and dependent on human factors, such as one’s environment, attitudes, beliefs, and lived experiences. Thus, it may be the case that employing LLMs (which do not have such human factors) in these tasks results in a lack of variation in data, failing to reflect the diversity of human experiences. In this paper, we examine the role of prompting LLMs with human-like personas and asking the models to answer as if they were a specific human. This is done explicitly, with exact demographics, political beliefs, and lived experiences, or implicitly via names prevalent in specific populations. The LLM personas are then evaluated via (1) subjective annotation task (e.g., detecting toxicity) and (2) a belief generation task, where both tasks are known to vary across human factors. We examine the impact of explicit vs. implicit personas and investigate which human factors LLMs recognize and respond to. Results show that explicit LLM personas show mixed results when reproducing known human biases, but generally fail to demonstrate implicit biases. We conclude that LLMs may capture the statistical patterns of how people speak, but are generally unable to model the complex interactions and subtleties of human perceptions, potentially limiting their effectiveness in social science applications.
arxiv情報
著者 | Salvatore Giorgi,Tingting Liu,Ankit Aich,Kelsey Isman,Garrick Sherman,Zachary Fried,João Sedoc,Lyle H. Ungar,Brenda Curtis |
発行日 | 2024-10-17 16:32:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google