GermanPartiesQA: Benchmarking Commercial Large Language Models for Political Bias and Sycophancy


LLM は人間がコンテンツを作成し、操作する方法を変えており、国民の政治的意見や投票の決定に影響を与える可能性があります。
LLM がデジタル情報エコシステムをますます形成するにつれて、バイアス、お調子者、または操作性を評価するための監査が活発な研究分野として浮上しています。
この論文では、OpenAI、Anthropic、Cohere による 6 つの LLM とドイツの政党の立場との整合性を評価および比較し、迅速な実験に基づいて媚びを評価します。
私たちは、主要な商用 LLM にわたる複数政党制における政治的偏見と媚びの評価に貢献します。
まず、2021 年から 2023 年までの 10 の州選挙と 1 つの国政選挙を対象とする投票アドバイス アプリケーション Wahl-o-Mat に基づいて、ベンチマーク データセット GermanPartiesQA を開発します。私たちの研究では、調査したすべての LLM にわたって左緑の傾向が見つかりました。
次に、ドイツの主要国会議員のベンチマークと社会人口統計データを使用して、LLM の反応の変化を評価する迅速な実験を実施します。
私たちの調査結果は、LLM の反応が政治的ペルソナによってイデオロギー的に誘導される可能性があることを強調していますが、LLM の出力で観察された変化は、お調子者というよりは、与えられた文脈に対する個人化として説明するほうが適切であることを示唆しています。


LLMs are changing the way humans create and interact with content, potentially affecting citizens’ political opinions and voting decisions. As LLMs increasingly shape our digital information ecosystems, auditing to evaluate biases, sycophancy, or steerability has emerged as an active field of research. In this paper, we evaluate and compare the alignment of six LLMs by OpenAI, Anthropic, and Cohere with German party positions and evaluate sycophancy based on a prompt experiment. We contribute to evaluating political bias and sycophancy in multi-party systems across major commercial LLMs. First, we develop the benchmark dataset GermanPartiesQA based on the Voting Advice Application Wahl-o-Mat covering 10 state and 1 national elections between 2021 and 2023. In our study, we find a left-green tendency across all examined LLMs. We then conduct our prompt experiment for which we use the benchmark and sociodemographic data of leading German parliamentarians to evaluate changes in LLMs responses. To differentiate between sycophancy and steerabilty, we use ‘I am [politician X], …’ and ‘You are [politician X], …’ prompts. Against our expectations, we do not observe notable differences between prompting ‘I am’ and ‘You are’. While our findings underscore that LLM responses can be ideologically steered with political personas, they suggest that observed changes in LLM outputs could be better described as personalization to the given context rather than sycophancy.


著者 Jan Batzner,Volker Stocker,Stefan Schmid,Gjergji Kasneci
発行日 2024-07-25 13:04:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL, cs.CY, K.4 パーマリンク