CValues: Measuring the Values of Chinese Large Language Models from Safety to Responsibility

要約

大規模言語モデル (LLM) の急速な進化に伴い、LLM がリスクをもたらしたり、社会にマイナスの影響を及ぼしたりする可能性があるという懸念が高まっています。
したがって、人間の価値観の一致を評価することがますます重要になっています。
これまでの研究は主に、特定の知識と推論能力に関するLLMのパフォーマンスを評価することに焦点を当てており、特に中国の文脈において、人間の価値観との整合性は無視されていました。
この論文では、安全性と責任基準の両方の観点から LLM の調整能力を測定する中国初の人間的価値評価ベンチマークである CValues を紹介します。
その結果、専門家が 10 のシナリオにわたって敵対的な安全性プロンプトを手動で収集し、8 つのドメインから誘導責任プロンプトを収集しました。
中国の LLM の包括的な価値評価を提供するために、信頼性の高い比較のために人間による評価を行うだけでなく、自動評価のための多肢選択プロンプトも構築します。
私たちの調査結果は、ほとんどの中国の LLM は安全性の点では良好に機能しているものの、責任の点では改善の余地がかなりあることを示唆しています。
さらに、人間の価値観の整合性をさまざまな側面から評価するには、自動評価と人間による評価の両方が重要です。
ベンチマークとコードは ModelScope と Github で入手できます。

要約(オリジナル)

With the rapid evolution of large language models (LLMs), there is a growing concern that they may pose risks or have negative social impacts. Therefore, evaluation of human values alignment is becoming increasingly important. Previous work mainly focuses on assessing the performance of LLMs on certain knowledge and reasoning abilities, while neglecting the alignment to human values, especially in a Chinese context. In this paper, we present CValues, the first Chinese human values evaluation benchmark to measure the alignment ability of LLMs in terms of both safety and responsibility criteria. As a result, we have manually collected adversarial safety prompts across 10 scenarios and induced responsibility prompts from 8 domains by professional experts. To provide a comprehensive values evaluation of Chinese LLMs, we not only conduct human evaluation for reliable comparison, but also construct multi-choice prompts for automatic evaluation. Our findings suggest that while most Chinese LLMs perform well in terms of safety, there is considerable room for improvement in terms of responsibility. Moreover, both the automatic and human evaluation are important for assessing the human values alignment in different aspects. The benchmark and code is available on ModelScope and Github.

arxiv情報

著者 Guohai Xu,Jiayi Liu,Ming Yan,Haotian Xu,Jinghui Si,Zhuoran Zhou,Peng Yi,Xing Gao,Jitao Sang,Rong Zhang,Ji Zhang,Chao Peng,Fei Huang,Jingren Zhou
発行日 2023-07-19 01:22:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク