Examining Alignment of Large Language Models through Representative Heuristics: The Case of Political Stereotypes

要約

特にこれらのシステムが意図したとおりに動作できない場合、大規模な言語モデル(LLMS)のアラインメントを調べることがますます重要になっています。
この研究では、政治的傾向に特に焦点を当てて、LLMを人間の意図と価値観に合わせるという課題を探ります。
以前の研究では、LLMSの政治的傾向を示す傾向と、さまざまな問題に関する特定の政党のスタンスを模倣する能力を強調しています。
ただし、LLMSが経験的位置から逸脱する範囲と条件は徹底的に検討されていません。
このギャップに対処するために、我々の研究は、これらの逸脱を定量化し、それらを引き起こす条件を特定することを目的とした、政治的問題に関する経験的立場からのLLMの逸脱に寄与する要因を体系的に調査します。
代表性ヒューリスティックに関連する認知科学の調査結果を利用する – 個人が誇張された信念につながる方法でターゲットグループの代表的な属性を容易に思い出す – このヒューリスティックレンズを通してLLM応答を精査します。
私たちは、特定の政党を支持して判断を膨らませることにより、LLMがどのようにステレオタイプを示すかを判断するために実験を実施します。
私たちの結果は、LLMが特定の政党の立場を模倣できるが、人間の回答者よりもこれらの立場を誇張することが多いことを示しています。
特に、LLMは人間よりも代表性を大幅に強調しすぎる傾向があります。
この研究は、LLMSの代表性ヒューリスティックに対する感受性を強調し、政治的ステレオタイプに対する潜在的な脆弱性を提案しています。
LLM応答における代表性の影響を減らす際の有効性を示す迅速な緩和戦略を提案します。

要約(オリジナル)

Examining the alignment of large language models (LLMs) has become increasingly important, particularly when these systems fail to operate as intended. This study explores the challenge of aligning LLMs with human intentions and values, with specific focus on their political inclinations. Previous research has highlighted LLMs’ propensity to display political leanings, and their ability to mimic certain political parties’ stances on various issues. However, the extent and conditions under which LLMs deviate from empirical positions have not been thoroughly examined. To address this gap, our study systematically investigates the factors contributing to LLMs’ deviations from empirical positions on political issues, aiming to quantify these deviations and identify the conditions that cause them. Drawing on cognitive science findings related to representativeness heuristics — where individuals readily recall the representative attribute of a target group in a way that leads to exaggerated beliefs — we scrutinize LLM responses through this heuristics lens. We conduct experiments to determine how LLMs exhibit stereotypes by inflating judgments in favor of specific political parties. Our results indicate that while LLMs can mimic certain political parties’ positions, they often exaggerate these positions more than human respondents do. Notably, LLMs tend to overemphasize representativeness to a greater extent than humans. This study highlights the susceptibility of LLMs to representativeness heuristics, suggeseting potential vulnerabilities to political stereotypes. We propose prompt-based mitigation strategies that demonstrate effectiveness in reducing the influence of representativeness in LLM responses.

arxiv情報

著者 Sullam Jeoung,Yubin Ge,Haohan Wang,Jana Diesner
発行日 2025-01-24 07:24:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク