Measuring Human and AI Values based on Generative Psychometrics with Large Language Models

要約

人間の価値観とその測定は、長年にわたる学際的な研究です。
AI の最近の進歩により、大規模言語モデル (LLM) が価値測定のツールおよび対象の両方として登場し、この分野への新たな関心が高まっています。
この研究では、テキストによって明らかにされる選択的知覚に理論的に基づいた、LLM ベースのデータ駆動型価値測定パラダイムである価値生成心理測定 (GPV) を紹介します。
まず、認識レベルの値を正確に測定できるように LLM を微調整し、テキストを認識に解析して GPV パイプラインの中核を形成する LLM の機能を検証します。
GPV を人間が作成したブログに適用することで、その安定性、有効性、および以前の心理ツールよりも優れていることを実証しました。
次に、GPV を LLM 値測定に拡張し、1) スケーラブルで自由形式の出力に基づいて LLM 値を測定する心理測定法により、コンテキスト固有の測定を可能にします。
2) 測定パラダイムの比較分析。従来の方法の応答バイアスを示します。
3) LLM 値とその安全性を橋渡しする試み。さまざまな値システムの予測力と、LLM の安全性に対するさまざまな値の影響を明らかにします。
学際的な取り組みを通じて、私たちは AI を次世代の心理測定に活用し、心理測定を価値観に合わせた AI に活用することを目指しています。

要約(オリジナル)

Human values and their measurement are long-standing interdisciplinary inquiry. Recent advances in AI have sparked renewed interest in this area, with large language models (LLMs) emerging as both tools and subjects of value measurement. This work introduces Generative Psychometrics for Values (GPV), an LLM-based, data-driven value measurement paradigm, theoretically grounded in text-revealed selective perceptions. We begin by fine-tuning an LLM for accurate perception-level value measurement and verifying the capability of LLMs to parse texts into perceptions, forming the core of the GPV pipeline. Applying GPV to human-authored blogs, we demonstrate its stability, validity, and superiority over prior psychological tools. Then, extending GPV to LLM value measurement, we advance the current art with 1) a psychometric methodology that measures LLM values based on their scalable and free-form outputs, enabling context-specific measurement; 2) a comparative analysis of measurement paradigms, indicating response biases of prior methods; and 3) an attempt to bridge LLM values and their safety, revealing the predictive power of different value systems and the impacts of various values on LLM safety. Through interdisciplinary efforts, we aim to leverage AI for next-generation psychometrics and psychometrics for value-aligned AI.

arxiv情報

著者 Haoran Ye,Yuhang Xie,Yuanyi Ren,Hanjun Fang,Xin Zhang,Guojie Song
発行日 2024-09-18 16:26:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク