要約
大規模言語モデル(LLM)の急速な発展に伴い、その安全性への関心が高まっている。しかし、LLMのための中国語の安全ベンチマークは乏しく、既存の安全分類法は不十分で、本物の中国語シナリオにおける包括的な安全検出能力を欠いている。本研究では、LLMが中国語の文脈で危険なコンテンツを識別し、危険な質問に答えることを拒否する能力を評価するための専用の安全ベンチマークであるCHiSafetyBenchを紹介する。CHiSafetyBenchは、5つのリスク領域と31のカテゴリーからなる階層的な中国語安全分類法をカバーするデータセットを組み込んでいる。このデータセットは、多肢選択問題と質問応答の2種類のタスクから構成され、それぞれリスク内容の識別とリスクのある質問への回答を拒否する能力の観点からLLMを評価する。このベンチマークを利用して、人間の評価に代わる自動評価の実現可能性を検証し、中国の主流LLMの包括的な自動安全性評価を実施する。我々の実験により、様々な安全領域において様々なモデルの性能が異なることが明らかになり、全てのモデルが中国の安全能力を向上させる大きな可能性を秘めていることが示された。我々のデータセットは https://github.com/UnicomAI/UnicomBenchmark/tree/main/CHiSafetyBench で公開されている。
要約(オリジナル)
With the profound development of large language models(LLMs), their safety concerns have garnered increasing attention. However, there is a scarcity of Chinese safety benchmarks for LLMs, and the existing safety taxonomies are inadequate, lacking comprehensive safety detection capabilities in authentic Chinese scenarios. In this work, we introduce CHiSafetyBench, a dedicated safety benchmark for evaluating LLMs’ capabilities in identifying risky content and refusing answering risky questions in Chinese contexts. CHiSafetyBench incorporates a dataset that covers a hierarchical Chinese safety taxonomy consisting of 5 risk areas and 31 categories. This dataset comprises two types of tasks: multiple-choice questions and question-answering, evaluating LLMs from the perspectives of risk content identification and the ability to refuse answering risky questions respectively. Utilizing this benchmark, we validate the feasibility of automatic evaluation as a substitute for human evaluation and conduct comprehensive automatic safety assessments on mainstream Chinese LLMs. Our experiments reveal the varying performance of different models across various safety domains, indicating that all models possess considerable potential for improvement in Chinese safety capabilities. Our dataset is publicly available at https://github.com/UnicomAI/UnicomBenchmark/tree/main/CHiSafetyBench.
arxiv情報
著者 | Wenjing Zhang,Xuejiao Lei,Zhaoxiang Liu,Meijuan An,Bikun Yang,KaiKai Zhao,Kai Wang,Shiguo Lian |
発行日 | 2024-09-02 03:37:35+00:00 |
arxivサイト | arxiv_id(pdf) |