Do LLMs have Consistent Values?

要約

価値観は人間の行動の根底にある基本的な原動力です。
Large Language Models (LLM) テクノロジーは、人間のような対話を目指して常に改善されています。
ただし、LLM によって生成されたテキストに示される値を研究するための研究はほとんど行われていません。
ここでは、心理学における価値構造に関する豊富な文献に目を向けることによって、この疑問を研究します。
私たちは、LLM が、値のランキングや値間の相関関係など、人間で実証されているのと同じ値構造を示すかどうかを尋ねます。
この分析の結果は、LLM がどのように促されるかに強く依存し、特定の促進戦略 (「値アンカー」と呼ばれる) の下では、人間のデータとの一致が非常に説得力があることを示します。
私たちの結果は、LLM の値についての理解を深めると同時に、LLM 応答の一貫性を評価するための新しい方法を導入するのにも役立ちます。

要約(オリジナル)

Values are a basic driving force underlying human behavior. Large Language Models (LLM) technology is constantly improving towards human-like dialogue. However, little research has been done to study the values exhibited in text generated by LLMs. Here we study this question by turning to the rich literature on value structure in psychology. We ask whether LLMs exhibit the same value structure that has been demonstrated in humans, including the ranking of values, and correlation between values. We show that the results of this analysis strongly depend on how the LLM is prompted, and that under a particular prompting strategy (referred to as ‘Value Anchoring’) the agreement with human data is quite compelling. Our results serve both to improve our understanding of values in LLMs, as well as introduce novel methods for assessing consistency in LLM responses.

arxiv情報

著者 Naama Rozen,Gal Elidan,Amir Globerson,Ella Daniel
発行日 2024-07-19 14:24:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク