Explicit and Implicit Large Language Model Personas Generate Opinions but Fail to Replicate Deeper Perceptions and Biases

要約

大規模言語モデル (LLM) は、データ アノテーション、合成データの作成、対話など、人間中心の社会科学タスクで使用されることが増えています。
ただし、これらのタスクは非常に主観的であり、環境、態度、信念、生きた経験などの人的要因に依存します。
したがって、これらのタスクに LLM (そのような人的要因を持たない) を採用すると、データのバリエーションが不足し、人間の経験の多様性を反映できなくなる可能性があります。
この論文では、人間のようなペルソナで LLM を促し、モデルに特定の人間であるかのように回答を求める役割を検討します。
これは、正確な人口統計、政治的信念、実際の経験を使用して明示的に行われるか、特定の集団に普及している名前を介して暗黙的に行われます。
次に、LLM ペルソナは、(1) 主観的な注釈タスク (毒性の検出など) および (2) 信念生成タスクによって評価されます。どちらのタスクも人的要因によって異なることが知られています。
私たちは、明示的なペルソナと暗黙的なペルソナの影響を調査し、LLM がどのヒューマン要因を認識して反応するかを調査します。
結果は、LLM ペルソナが既知の人間のバイアスを再現する場合にはさまざまな結果を示しますが、暗黙的なバイアスを生成することは一般的に失敗していることを示しています。
私たちは、LLM には人間の思考に固有の認知メカニズムが欠けているものの、人々の話し方の統計的パターンを捕捉するため、複雑な社会科学への応用における有効性が制限される可能性があると結論付けています。

要約(オリジナル)

Large language models (LLMs) are increasingly being used in human-centered social scientific tasks, such as data annotation, synthetic data creation, and engaging in dialog. However, these tasks are highly subjective and dependent on human factors, such as one’s environment, attitudes, beliefs, and lived experiences. Thus, employing LLMs (which do not have such human factors) in these tasks may result in a lack of variation in data, failing to reflect the diversity of human experiences. In this paper, we examine the role of prompting LLMs with human-like personas and asking the models to answer as if they were a specific human. This is done explicitly, with exact demographics, political beliefs, and lived experiences, or implicitly via names prevalent in specific populations. The LLM personas are then evaluated via (1) subjective annotation task (e.g., detecting toxicity) and (2) a belief generation task, where both tasks are known to vary across human factors. We examine the impact of explicit vs. implicit personas and investigate which human factors LLMs recognize and respond to. Results show that LLM personas show mixed results when reproducing known human biases, but generate generally fail to demonstrate implicit biases. We conclude that LLMs lack the intrinsic cognitive mechanisms of human thought, while capturing the statistical patterns of how people speak, which may restrict their effectiveness in complex social science applications.

arxiv情報

著者 Salvatore Giorgi,Tingting Liu,Ankit Aich,Kelsey Isman,Garrick Sherman,Zachary Fried,João Sedoc,Lyle H. Ungar,Brenda Curtis
発行日 2024-06-20 16:24:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク