SC-Safety: A Multi-round Open-ended Question Adversarial Safety Benchmark for Large Language Models in Chinese

要約

ChatGPT や GPT-4 などの大規模言語モデル (LLM) は、自然言語の理解と生成において顕著な能力を実証しています。
しかし、それらは私たちの日常業務にプラスの影響を与えると同時に、社会の認識に悪影響を与える有害なコンテンツを生み出す可能性もあります。
中国の LLM の安全性を体系的に評価するために、SuperCLUE-Safety (SC-Safety) を導入します。これは、20 以上の安全性サブディメンションをカバーする 4912 の自由回答形式の質問を備えたマルチラウンドの敵対的ベンチマークです。
敵対的なヒューマンモデルの対話と会話は、既存の方法と比較して課題を大幅に増加させます。
中国をサポートする 13 の主要な LLM に関する実験から、次の洞察が得られます。 1) 安全性の点で、クローズドソース モデルはオープンソース モデルよりも優れています。
2) 中国からリリースされたモデルは、GPT-3.5-turbo などの LLM と同等の安全性レベルを実証しています。
3) 6B ~ 13B パラメータを備えたいくつかの小型モデルは、安全性の点で効果的に競合できます。
SC-Safetyの導入により、より安全で信頼できるLLMを構築するための共同作業を促進することを目指しています。
ベンチマークと調査結果は、モデル選択の指針を提供します。
当社のベンチマークは https://www.CLUEbenchmarks.com でご覧いただけます。

要約(オリジナル)

Large language models (LLMs), like ChatGPT and GPT-4, have demonstrated remarkable abilities in natural language understanding and generation. However, alongside their positive impact on our daily tasks, they can also produce harmful content that negatively affects societal perceptions. To systematically assess the safety of Chinese LLMs, we introduce SuperCLUE-Safety (SC-Safety) – a multi-round adversarial benchmark with 4912 open-ended questions covering more than 20 safety sub-dimensions. Adversarial human-model interactions and conversations significantly increase the challenges compared to existing methods. Experiments on 13 major LLMs supporting Chinese yield the following insights: 1) Closed-source models outperform open-sourced ones in terms of safety; 2) Models released from China demonstrate comparable safety levels to LLMs like GPT-3.5-turbo; 3) Some smaller models with 6B-13B parameters can compete effectively in terms of safety. By introducing SC-Safety, we aim to promote collaborative efforts to create safer and more trustworthy LLMs. The benchmark and findings provide guidance on model selection. Our benchmark can be found at https://www.CLUEbenchmarks.com

arxiv情報

著者 Liang Xu,Kangkang Zhao,Lei Zhu,Hang Xue
発行日 2023-10-09 16:03:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク