Value Compass Benchmarks: A Platform for Fundamental and Validated Evaluation of LLMs Values

要約

大規模な言語モデル(LLM)が顕著なブレークスルーを達成するにつれて、人間との価値を合わせることは、責任ある開発とカスタマイズされたアプリケーションにとって不可欠になりました。
ただし、3つの望ましい目標を達成するLLMS値の評価はまだありません。
(1)価値の明確化:LLMの根本的な値を正確かつ包括的に明確にすることを期待していますが、現在の評価は、バイアスや毒性などの安全リスクに狭く焦点を当てています。
(2)評価の妥当性:既存の静的、オープンソースのベンチマークは、データ汚染が発生しやすく、LLMSが進化するにつれてすぐに時代遅れになります。
さらに、これらの識別評価は、LLMSの行動的適合性に対する有効な評価ではなく、値に関するLLMの知識を明らかにします。
(3)価値多元主義:個人や文化にわたる人間の価値の多元的な性質は、LLMS値のアライメントを測定する際にほとんど無視されます。
これらの課題に対処するために、3つの対応して設計されたモジュールを使用して、バリューコンパスベンチマークを提示します。
(i)動機的に異なる\ textit {基本値の評価を根拠に基づいて、llmsの根本的な値を全体的な見方から明確にします。
(ii)A \ textit {リアルなシナリオでの行動からのLLMSおよび直接的な価値認識のための適応テスト項目を使用した生成的進化評価フレームワークを適用します。
(iii)複数の次元にわたって加重合計として特定の値とLLMSアラインメントを定量化するメトリックを提案し、重みは多元的値によって決定されます。

要約(オリジナル)

As Large Language Models (LLMs) achieve remarkable breakthroughs, aligning their values with humans has become imperative for their responsible development and customized applications. However, there still lack evaluations of LLMs values that fulfill three desirable goals. (1) Value Clarification: We expect to clarify the underlying values of LLMs precisely and comprehensively, while current evaluations focus narrowly on safety risks such as bias and toxicity. (2) Evaluation Validity: Existing static, open-source benchmarks are prone to data contamination and quickly become obsolete as LLMs evolve. Additionally, these discriminative evaluations uncover LLMs’ knowledge about values, rather than valid assessments of LLMs’ behavioral conformity to values. (3) Value Pluralism: The pluralistic nature of human values across individuals and cultures is largely ignored in measuring LLMs value alignment. To address these challenges, we presents the Value Compass Benchmarks, with three correspondingly designed modules. It (i) grounds the evaluation on motivationally distinct \textit{basic values to clarify LLMs’ underlying values from a holistic view; (ii) applies a \textit{generative evolving evaluation framework with adaptive test items for evolving LLMs and direct value recognition from behaviors in realistic scenarios; (iii) propose a metric that quantifies LLMs alignment with a specific value as a weighted sum over multiple dimensions, with weights determined by pluralistic values.

arxiv情報

著者 Jing Yao,Xiaoyuan Yi,Shitong Duan,Jindong Wang,Yuzhuo Bai,Muhua Huang,Peng Zhang,Tun Lu,Zhicheng Dou,Maosong Sun,Xing Xie
発行日 2025-06-02 15:40:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク