A Chinese Dataset for Evaluating the Safeguards in Large Language Models

要約

多くの研究で、大規模言語モデル (LLM) が有害な応答を生成し、LLM の導入時にユーザーが予期せぬリスクにさらされる可能性があることが実証されています。
これまでの研究では、LLM によってもたらされるリスクの包括的な分類法と、LLM の安全メカニズムを調べるために使用できる対応するプロンプトが提案されています。
しかし、焦点はほぼ英語のみに集中しており、他の言語についてはほとんど検討されていません。
ここでは、このギャップを埋めることを目指しています。
まず中国の LLM の安全性評価用のデータセットを導入し、次にそれを他の 2 つのシナリオに拡張し、危険な即時拒否の観点から偽陰性と偽陽性の例をより適切に特定するために使用できます。
さらに、リスクの種類ごとに一連のきめの細かい安全性評価基準を提示し、LLM 反応の有害性に関する手動の注釈と自動評価の両方を容易にします。
5 つの LLM に対する私たちの実験では、地域固有のリスクが一般的なタイプのリスクであることが示されており、実験したすべての中国の LLM に大きな問題が生じています。
警告: この文書には、攻撃的、有害、または偏った可能性のあるデータ例が含まれています。

要約(オリジナル)

Many studies have demonstrated that large language models (LLMs) can produce harmful responses, exposing users to unexpected risks when LLMs are deployed. Previous studies have proposed comprehensive taxonomies of the risks posed by LLMs, as well as corresponding prompts that can be used to examine the safety mechanisms of LLMs. However, the focus has been almost exclusively on English, and little has been explored for other languages. Here we aim to bridge this gap. We first introduce a dataset for the safety evaluation of Chinese LLMs, and then extend it to two other scenarios that can be used to better identify false negative and false positive examples in terms of risky prompt rejections. We further present a set of fine-grained safety assessment criteria for each risk type, facilitating both manual annotation and automatic evaluation in terms of LLM response harmfulness. Our experiments on five LLMs show that region-specific risks are the prevalent type of risk, presenting the major issue with all Chinese LLMs we experimented with. Warning: this paper contains example data that may be offensive, harmful, or biased.

arxiv情報

著者 Yuxia Wang,Zenan Zhai,Haonan Li,Xudong Han,Lizhi Lin,Zhenxuan Zhang,Jingru Zhao,Preslav Nakov,Timothy Baldwin
発行日 2024-02-19 14:56:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク