要約
大規模言語モデル (LLM) の最近の進歩は AI 分野に革命をもたらしましたが、潜在的な安全性と倫理的リスクももたらします。
LLM に埋め込まれた値を解読することは、そのリスクを評価し軽減するために重要になります。
LLM の価値観に関する広範な調査にもかかわらず、これまでの研究は社会科学における人間中心の価値観に大きく依存していました。
そこで当然の疑問が生じます。LLM は人間を超えた独自の価値観を持っているのでしょうか?
それを掘り下げて、この研究は、人間の性格/価値研究からの心理学的方法論を活用して、LLMの独自の価値システムをゼロから再構築するための新しいフレームワークValueLexを提案します。
字句仮説に基づいて、ValueLex は 30 以上の LLM から多様な値を導き出す生成アプローチを導入し、因子分析とセマンティック クラスタリングを介して包括的な値のフレームワークに至る分類法を統合します。
私たちは、能力、性格、誠実さという 3 つの核となる価値の次元を特定し、それぞれに特定の下位次元を持ち、LLM が人間的ではないものの、構造化された価値体系を持っていることを明らかにしています。
このシステムに基づいて、さまざまなモデル サイズ、トレーニング方法、データ ソースにわたる LLM の値の傾向を評価および分析するための、カスタマイズされた射影テストをさらに開発します。
私たちのフレームワークは、LLM を理解する学際的なパラダイムを促進し、将来の AI の調整と規制への道を開きます。
要約(オリジナル)
Recent advancements in Large Language Models (LLMs) have revolutionized the AI field but also pose potential safety and ethical risks. Deciphering LLMs’ embedded values becomes crucial for assessing and mitigating their risks. Despite extensive investigation into LLMs’ values, previous studies heavily rely on human-oriented value systems in social sciences. Then, a natural question arises: Do LLMs possess unique values beyond those of humans? Delving into it, this work proposes a novel framework, ValueLex, to reconstruct LLMs’ unique value system from scratch, leveraging psychological methodologies from human personality/value research. Based on Lexical Hypothesis, ValueLex introduces a generative approach to elicit diverse values from 30+ LLMs, synthesizing a taxonomy that culminates in a comprehensive value framework via factor analysis and semantic clustering. We identify three core value dimensions, Competence, Character, and Integrity, each with specific subdimensions, revealing that LLMs possess a structured, albeit non-human, value system. Based on this system, we further develop tailored projective tests to evaluate and analyze the value inclinations of LLMs across different model sizes, training methods, and data sources. Our framework fosters an interdisciplinary paradigm of understanding LLMs, paving the way for future AI alignment and regulation.
arxiv情報
著者 | Pablo Biedma,Xiaoyuan Yi,Linus Huang,Maosong Sun,Xing Xie |
発行日 | 2024-04-19 09:44:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google