Generative Psycho-Lexical Approach for Constructing Value Systems in Large Language Models

要約

価値は、個人的および集団的認識、認知、および行動の中心的なドライバーです。
Schwartzの基本的な人間の価値観の理論などの価値システムは、これらの価値の階層と相互作用を描き、意思決定と社会的ダイナミクスに関する学際的な調査を可能にします。
最近、大規模な言語モデル(LLMS)の台頭は、そのとらえどころのない本質的な価値に関する懸念を提起しました。
LLM価値の評価、理解、および調整の努力が高まっているにもかかわらず、心理的に根拠のあるLLMバリューシステムは未熟なままです。
この研究では、価値システムを構築するためのスケーラブルで適応性があり、理論的に情報に基づいた方法である生成サイコレクシャルアプローチ(GPLA)を導入することにより、ギャップに対処します。
GPLAを活用すると、LLMに合わせた心理的に根拠のある5因子価値システムを提案します。
体系的な検証のために、心理的原則を最先端のAI優先事項と統合する3つのベンチマークタスクを提示します。
我々の結果は、提案された価値システムが標準的な心理学的基準を満たし、LLM値をより良くキャプチャし、LLMの安全予測を改善し、LLMアライメントを強化することを明らかにしています。

要約(オリジナル)

Values are core drivers of individual and collective perception, cognition, and behavior. Value systems, such as Schwartz’s Theory of Basic Human Values, delineate the hierarchy and interplay among these values, enabling cross-disciplinary investigations into decision-making and societal dynamics. Recently, the rise of Large Language Models (LLMs) has raised concerns regarding their elusive intrinsic values. Despite growing efforts in evaluating, understanding, and aligning LLM values, a psychologically grounded LLM value system remains underexplored. This study addresses the gap by introducing the Generative Psycho-Lexical Approach (GPLA), a scalable, adaptable, and theoretically informed method for constructing value systems. Leveraging GPLA, we propose a psychologically grounded five-factor value system tailored for LLMs. For systematic validation, we present three benchmarking tasks that integrate psychological principles with cutting-edge AI priorities. Our results reveal that the proposed value system meets standard psychological criteria, better captures LLM values, improves LLM safety prediction, and enhances LLM alignment, when compared to the canonical Schwartz’s values.

arxiv情報

著者 Haoran Ye,Tianze Zhang,Yuhang Xie,Liyuan Zhang,Yuanyi Ren,Xin Zhang,Guojie Song
発行日 2025-02-25 15:40:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク