Generative Psycho-Lexical Approach for Constructing Value Systems in Large Language Models

要約

価値観は、個人や集団の知覚、認知、行動の中核をなすものである。シュワルツの「人間の基本的価値観の理論」のような価値観システムは、これらの価値観の階層と相互関係を明確にし、意思決定や社会のダイナミクスを学際的に調査することを可能にする。近年、大規模言語モデル(LLM)の台頭により、そのとらえどころのない本質的価値に関する懸念が提起されている。LLMの価値を評価し、理解し、整合させる取り組みが活発化しているにもかかわらず、心理学的な根拠に基づくLLMの価値体系についてはまだ十分に研究されていない。本研究では、価値体系を構築するための、拡張可能で、適応可能で、理論に基づいた手法である、生成的心理学的アプローチ(Generative Psycho-Lexical Approach:GPLA)を導入することで、このギャップに対処する。GPLAを活用し、LLMに合わせた心理学的根拠のある5因子の価値体系を提案する。体系的な検証のために、心理学的原理と最先端のAIの優先順位を統合した3つのベンチマーク課題を提示する。その結果、提案する価値体系が、標準的な心理学的基準を満たし、LLMの価値をより良く捉え、LLMの安全予測を改善し、LLMのアライメントを強化することが、正規のシュワルツの価値体系と比較して明らかになった。

要約(オリジナル)

Values are core drivers of individual and collective perception, cognition, and behavior. Value systems, such as Schwartz’s Theory of Basic Human Values, delineate the hierarchy and interplay among these values, enabling cross-disciplinary investigations into decision-making and societal dynamics. Recently, the rise of Large Language Models (LLMs) has raised concerns regarding their elusive intrinsic values. Despite growing efforts in evaluating, understanding, and aligning LLM values, a psychologically grounded LLM value system remains underexplored. This study addresses the gap by introducing the Generative Psycho-Lexical Approach (GPLA), a scalable, adaptable, and theoretically informed method for constructing value systems. Leveraging GPLA, we propose a psychologically grounded five-factor value system tailored for LLMs. For systematic validation, we present three benchmarking tasks that integrate psychological principles with cutting-edge AI priorities. Our results reveal that the proposed value system meets standard psychological criteria, better captures LLM values, improves LLM safety prediction, and enhances LLM alignment, when compared to the canonical Schwartz’s values.

arxiv情報

著者 Haoran Ye,Tianze Zhang,Yuhang Xie,Liyuan Zhang,Yuanyi Ren,Xin Zhang,Guojie Song
発行日 2025-02-04 16:10:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク