要約
大規模言語モデル (LLM) の急速な発展に伴い、その安全性への懸念がますます注目されるようになりました。
したがって、LLM の安全性を評価することは、LLM の幅広い応用を促進するために不可欠なタスクとなっています。
それにもかかわらず、包括的な安全性評価ベンチマークが存在しないことは、LLM の安全性を効果的に評価し強化することに重大な障害をもたらします。
この研究では、LLM の安全性を評価するための包括的なベンチマークである SafetyBench を紹介します。これは、安全性に関する 7 つの異なるカテゴリにわたる 11,435 の多様な多肢選択式の質問で構成されています。
特に、SafetyBench には中国語と英語の両方のデータも組み込まれており、両方の言語での評価が容易になります。
25 の人気のある中国語と英語の LLM をゼロ ショット設定と少数ショット設定の両方で広範なテストを行った結果、GPT-4 のパフォーマンスが同等のものよりも大幅に優れていることが明らかになり、現在の LLM の安全性を向上させる余地はまだ大きくあります。
私たちは、SafetyBench によって LLM の安全性を迅速かつ包括的に評価できるようになり、より安全な LLM の開発が促進されると信じています。
データと評価のガイドラインは https://github.com/thu-coai/SafetyBench で入手できます。
提出の入り口とリーダーボードは https://llmbench.ai/safety で利用できます。
要約(オリジナル)
With the rapid development of Large Language Models (LLMs), increasing attention has been paid to their safety concerns. Consequently, evaluating the safety of LLMs has become an essential task for facilitating the broad applications of LLMs. Nevertheless, the absence of comprehensive safety evaluation benchmarks poses a significant impediment to effectively assess and enhance the safety of LLMs. In this work, we present SafetyBench, a comprehensive benchmark for evaluating the safety of LLMs, which comprises 11,435 diverse multiple choice questions spanning across 7 distinct categories of safety concerns. Notably, SafetyBench also incorporates both Chinese and English data, facilitating the evaluation in both languages. Our extensive tests over 25 popular Chinese and English LLMs in both zero-shot and few-shot settings reveal a substantial performance advantage for GPT-4 over its counterparts, and there is still significant room for improving the safety of current LLMs. We believe SafetyBench will enable fast and comprehensive evaluation of LLMs’ safety, and foster the development of safer LLMs. Data and evaluation guidelines are available at https://github.com/thu-coai/SafetyBench. Submission entrance and leaderboard are available at https://llmbench.ai/safety.
arxiv情報
著者 | Zhexin Zhang,Leqi Lei,Lindong Wu,Rui Sun,Yongkang Huang,Chong Long,Xiao Liu,Xuanyu Lei,Jie Tang,Minlie Huang |
発行日 | 2023-09-13 15:56:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google