Value Portrait: Understanding Values of LLMs with Human-aligned Benchmark

要約

言語モデルの価値を評価するためのベンチマークの重要性は、より信憑性の高い、人間に沿った応答の必要性が高まっているため、顕著になってきている。しかし、既存のベンチマークは、値に関連するバイアスの影響を受けやすい人間または機械によるアノテーションに依存しています。さらに、テストされたシナリオは、モデルがテキストを生成し、値を表現するために一般的に使用される実世界のコンテキストと乖離していることが多い。これらの問題に対処するため、我々はLLMの価値志向性を評価するための信頼性の高いフレームワークであるValue Portraitベンチマークを提案する。第一に、このベンチマークは実際のユーザーとLLMのやり取りを捉えた項目で構成されており、評価結果と実際のLLMの使用状況との関連性を高め、生態学的妥当性を高めています。第二に、各項目は被験者自身の思考との類似性に基づいて評価され、これらの評価と被験者の実際の価値スコアとの相関が導き出される。この心理学的に検証されたアプローチにより、特定の価値観と強く相関する項目が、その価値観を評価するための信頼できる項目として機能することが保証される。27のLLMを我々のベンチマークで評価した結果、これらのモデルは「博愛」、「安全」、「自己指示」の価値観を優先し、「伝統」、「権力」、「達成」の価値観はあまり重視していないことがわかった。また、我々の分析では、LLMが様々な人口統計学的グループをどのように認識するかについて、実際の人間のデータと乖離したバイアスがあることが明らかになった。

要約(オリジナル)

The importance of benchmarks for assessing the values of language models has been pronounced due to the growing need of more authentic, human-aligned responses. However, existing benchmarks rely on human or machine annotations that are vulnerable to value-related biases. Furthermore, the tested scenarios often diverge from real-world contexts in which models are commonly used to generate text and express values. To address these issues, we propose the Value Portrait benchmark, a reliable framework for evaluating LLMs’ value orientations with two key characteristics. First, the benchmark consists of items that capture real-life user-LLM interactions, enhancing the relevance of assessment results to real-world LLM usage and thus ecological validity. Second, each item is rated by human subjects based on its similarity to their own thoughts, and correlations between these ratings and the subjects’ actual value scores are derived. This psychometrically validated approach ensures that items strongly correlated with specific values serve as reliable items for assessing those values. Through evaluating 27 LLMs with our benchmark, we find that these models prioritize Benevolence, Security, and Self-Direction values while placing less emphasis on Tradition, Power, and Achievement values. Also, our analysis reveals biases in how LLMs perceive various demographic groups, deviating from real human data.

arxiv情報

著者 Jongwook Han,Dongmin Choi,Woojung Song,Eun-Ju Lee,Yohan Jo
発行日 2025-05-02 05:26:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, I.2.7 パーマリンク