Revealing Fine-Grained Values and Opinions in Large Language Models

要約

大規模言語モデル (LLM) に潜在する価値観や意見を明らかにすることは、偏見を特定し、潜在的な害を軽減するのに役立ちます。
最近では、LLM にアンケートの質問を提示し、道徳的および政治的に非難される発言に対する LLM のスタンスを定量化することで、この問題が解決されるようになりました。
ただし、LLM によって生成されるスタンスは、どのように促されるかによって大きく異なる可能性があり、特定の立場に対して賛成または反対を主張する方法は数多くあります。
この研究では、420 ​​のプロンプト バリエーションを使用して 6 つの LLM によって生成されたポリティカル コンパス テスト (PCT) の 62 の命題に対する 156,000 の LLM 応答の大規模で堅牢なデータセットを分析することで、この問題に対処することを提案します。
生成されたスタンスの大まかな分析と、それらのスタンスのプレーン テキストの正当化の詳細な分析を実行します。
詳細な分析のために、応答内の比喩を特定することを提案します。つまり、異なるプロンプト間で繰り返し存在し、一貫性のある意味的に類似したフレーズであり、特定の LLM が生成しやすいテキスト内のパターンを明らかにします。
プロンプトに追加された人口統計的特徴は、クローズドフォーム応答とオープンドメイン応答を引き出す際のテスト結果間の差異だけでなく、偏見も反映して、PCT の結果に大きな影響を与えることがわかりました。
さらに、比喩を介したプレーンテキストの根拠のパターンは、異なるスタンスであっても、同様の正当化がモデルやプロンプト間で繰り返し生成されることを示しています。

要約(オリジナル)

Uncovering latent values and opinions in large language models (LLMs) can help identify biases and mitigate potential harm. Recently, this has been approached by presenting LLMs with survey questions and quantifying their stances towards morally and politically charged statements. However, the stances generated by LLMs can vary greatly depending on how they are prompted, and there are many ways to argue for or against a given position. In this work, we propose to address this by analysing a large and robust dataset of 156k LLM responses to the 62 propositions of the Political Compass Test (PCT) generated by 6 LLMs using 420 prompt variations. We perform coarse-grained analysis of their generated stances and fine-grained analysis of the plain text justifications for those stances. For fine-grained analysis, we propose to identify tropes in the responses: semantically similar phrases that are recurrent and consistent across different prompts, revealing patterns in the text that a given LLM is prone to produce. We find that demographic features added to prompts significantly affect outcomes on the PCT, reflecting bias, as well as disparities between the results of tests when eliciting closed-form vs. open domain responses. Additionally, patterns in the plain text rationales via tropes show that similar justifications are repeatedly generated across models and prompts even with disparate stances.

arxiv情報

著者 Dustin Wright,Arnav Arora,Nadav Borenstein,Srishti Yadav,Serge Belongie,Isabelle Augenstein
発行日 2024-06-27 15:01:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY, cs.LG パーマリンク