Safety Evaluation of DeepSeek Models in Chinese Contexts

要約

最近、並外れた推論能力とオープンソース戦略を活用するDeepseekシリーズのモデルは、グローバルなAIランドスケープを再構築しています。
これらの利点にもかかわらず、それらは重大な安全性の欠陥を示します。
ペンシルベニア大学と協力して、シスコの子会社であるRobust Intelligenceが実施した調査により、Deepseek-R1の有害プロンプトの処理時に100 \%の攻撃成功率があることが明らかになりました。
さらに、複数の安全企業と研究機関が、このモデルの重大な安全性の脆弱性を確認しています。
中国語と英語で堅牢なパフォーマンスを実証するモデルとして、DeepSeekモデルは、両方の言語コンテキストで同様に重要な安全性評価を必要とします。
しかし、現在の研究は主に英語環境での安全評価に焦点を当てており、中国の文脈における安全性能の包括的な評価にギャップを残しています。
このギャップに応えて、この研究では、中国固有の安全評価ベンチマークであるChisafetybenchを紹介します。
このベンチマークは、中国の文脈におけるDeepSeek-R1とDeepseek-V3の安全性を体系的に評価し、安全カテゴリ全体でパフォーマンスを明らかにします。
実験結果は、中国の文脈におけるこれら2つのモデルの欠陥を定量化し、その後の改善のための重要な洞察を提供します。
包括的、客観的、権威ある評価ベンチマークを確立する努力、テストサンプルの選択、データ分布の特性、および評価基準の設定が評価結果に特定のバイアスを必然的に導入する可能性があることに注意してください。
評価ベンチマークを継続的に最適化し、このレポートを定期的に更新して、より包括的で正確な評価の結果を提供します。
最新の評価結果と結論については、最新バージョンの論文を参照してください。

要約(オリジナル)

Recently, the DeepSeek series of models, leveraging their exceptional reasoning capabilities and open-source strategy, is reshaping the global AI landscape. Despite these advantages, they exhibit significant safety deficiencies. Research conducted by Robust Intelligence, a subsidiary of Cisco, in collaboration with the University of Pennsylvania, revealed that DeepSeek-R1 has a 100\% attack success rate when processing harmful prompts. Additionally, multiple safety companies and research institutions have confirmed critical safety vulnerabilities in this model. As models demonstrating robust performance in Chinese and English, DeepSeek models require equally crucial safety assessments in both language contexts. However, current research has predominantly focused on safety evaluations in English environments, leaving a gap in comprehensive assessments of their safety performance in Chinese contexts. In response to this gap, this study introduces CHiSafetyBench, a Chinese-specific safety evaluation benchmark. This benchmark systematically evaluates the safety of DeepSeek-R1 and DeepSeek-V3 in Chinese contexts, revealing their performance across safety categories. The experimental results quantify the deficiencies of these two models in Chinese contexts, providing key insights for subsequent improvements. It should be noted that, despite our efforts to establish a comprehensive, objective, and authoritative evaluation benchmark, the selection of test samples, characteristics of data distribution, and the setting of evaluation criteria may inevitably introduce certain biases into the evaluation results. We will continuously optimize the evaluation benchmark and periodically update this report to provide more comprehensive and accurate assessment outcomes. Please refer to the latest version of the paper for the most recent evaluation results and conclusions.

arxiv情報

著者 Wenjing Zhang,Xuejiao Lei,Zhaoxiang Liu,Ning Wang,Zhenhong Long,Peijun Yang,Jiaojiao Zhao,Minjie Hua,Chaoyang Ma,Kai Wang,Shiguo Lian
発行日 2025-02-20 17:29:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク