Heterogeneous Value Evaluation for Large Language Models

要約

大規模言語モデル (LLM) の新たな機能により、その値を人間の値と一致させることが重要になりました。
現在の方法論は通常、均質な人間の価値観との整合を試み、人間による検証を必要としますが、望ましい側面と整合の深さ、そして結果として生じる人間のバイアスについてのコンセンサスが得られていません。
この論文では、(1) 個人の人間のバイアスを最小限に抑えるために自動化され、(2) 異種エージェントを促進するためにさまざまな目標値に対する評価を可能にする、異種価値観システムによる自動調整評価である A2EHV を提案します。
私たちのアプローチは、目標値を最も満たす行動をエージェントが実行できる能力を表す価値合理性の概念に基づいています。
価値合理性の定量化は、社会心理学の社会価値指向フレームワークによって促進されます。このフレームワークは、価値空間を 4 つのカテゴリに分割して、エージェントの行動から社会的選好を評価します。
私たちは 8 つの主流 LLM の価値合理性を評価し、大規模なモデルは強い個人的価値観を持つモデルと比較して中立的な価値観を一致させる傾向があることを観察しました。
これらの LLM の動作を調査することで、異種の価値体系内の価値の調整についてのより深い理解に貢献します。

要約(オリジナル)

The emergent capabilities of Large Language Models (LLMs) have made it crucial to align their values with those of humans. Current methodologies typically attempt alignment with a homogeneous human value and requires human verification, yet lack consensus on the desired aspect and depth of alignment and resulting human biases. In this paper, we propose A2EHV, an Automated Alignment Evaluation with a Heterogeneous Value system that (1) is automated to minimize individual human biases, and (2) allows assessments against various target values to foster heterogeneous agents. Our approach pivots on the concept of value rationality, which represents the ability for agents to execute behaviors that satisfy a target value the most. The quantification of value rationality is facilitated by the Social Value Orientation framework from social psychology, which partitions the value space into four categories to assess social preferences from agents’ behaviors. We evaluate the value rationality of eight mainstream LLMs and observe that large models are more inclined to align neutral values compared to those with strong personal values. By examining the behavior of these LLMs, we contribute to a deeper understanding of value alignment within a heterogeneous value system.

arxiv情報

著者 Zhaowei Zhang,Nian Liu,Siyuan Qi,Ceyao Zhang,Ziqi Rong,Song-Chun Zhu,Shuguang Cui,Yaodong Yang
発行日 2023-06-01 17:00:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC, cs.LG, I.2.0 パーマリンク