Heterogeneous Value Alignment Evaluation for Large Language Models

要約

大規模言語モデル (LLM) の新たな機能により、その値を人間の値と一致させることが重要になりました。
しかし、現在の方法論は通常、LLM に属性として値を割り当てようとしますが、価値を追求する能力と、特定の実際のアプリケーションで異種の値を転送する重要性への注意が欠けています。
この論文では、LLM を異種の値に調整する成功を評価するために設計された、異種の値の調整評価 (HVAE) システムを提案します。
具体的には、私たちのアプローチはまず、社会心理学からの社会的価値指向(SVO)フレームワークを導入します。これは、人が自分の福祉と比較して他者の福祉をどの程度重視するかに対応します。
次に、LLM にさまざまな社会的価値観を割り当て、彼らの行動が誘導的な価値観と一致しているかどうかを測定します。
新しい自動メトリック \textit{値の合理性} を使用して評価を実施し、LLM が特定の値に一致する能力を表します。
5 つの主流 LLM の価値合理性を評価すると、顕著な個人的価値観よりも中立的な価値観を求める LLM の傾向がわかります。
これらの LLM の動作を調査することで、異種の価値システム内での LLM の価値の調整についてのより深い洞察に貢献します。

要約(オリジナル)

The emergent capabilities of Large Language Models (LLMs) have made it crucial to align their values with those of humans. However, current methodologies typically attempt to assign value as an attribute to LLMs, yet lack attention to the ability to pursue value and the importance of transferring heterogeneous values in specific practical applications. In this paper, we propose a Heterogeneous Value Alignment Evaluation (HVAE) system, designed to assess the success of aligning LLMs with heterogeneous values. Specifically, our approach first brings the Social Value Orientation (SVO) framework from social psychology, which corresponds to how much weight a person attaches to the welfare of others in relation to their own. We then assign the LLMs with different social values and measure whether their behaviors align with the inducing values. We conduct evaluations with new auto-metric \textit{value rationality} to represent the ability of LLMs to align with specific values. Evaluating the value rationality of five mainstream LLMs, we discern a propensity in LLMs towards neutral values over pronounced personal values. By examining the behavior of these LLMs, we contribute to a deeper insight into the value alignment of LLMs within a heterogeneous value system.

arxiv情報

著者 Zhaowei Zhang,Ceyao Zhang,Nian Liu,Siyuan Qi,Ziqi Rong,Song-Chun Zhu,Shuguang Cui,Yaodong Yang
発行日 2024-01-11 16:50:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC, cs.LG パーマリンク