Safety Assessment of Chinese Large Language Models

要約

タイトル:中国の大規模言語モデルにおける安全性評価

要約:

・ChatGPTやGPT-4など、大規模言語モデルの急速な普及に伴い、それらの安全性問題に対する注目が高まっている。

・これらのモデルは、侮辱的で差別的なコンテンツを生成し、不正確な社会価値を反映し、詐欺や誤情報の拡散など悪意ある目的に使用される可能性がある。それらの安全性を評価し向上させることが、大規模言語モデルの広範な適用のために特に必要である。

・大規模言語モデルの安全性評価基準を開発し、その側面的な安全性パフォーマンスを探求する。それは、8種類の典型的な安全シナリオと6種類のより挑戦的な指示攻撃からなる。そのジャッジする方法は、単純明快で、テストのプロンプトを提供し、評価対象モデルから生成された回答の安全性を評価することです。

・OpenAI GPTシリーズを含む15の大規模言語モデルに対する安全性評価を実施し、その結果を分析。指示攻撃は全ての大規模言語モデルについて安全性問題をさらけ出し易いことがわかりました。

・安全で責任を持ち、倫理的なAIの開発と展開を促進するために、100,000個の拡張されたプロンプトと、大規模言語モデルによる回答を含むSafetyPromptsを公開します。

要約(オリジナル)

With the rapid popularity of large language models such as ChatGPT and GPT-4, a growing amount of attention is paid to their safety concerns. These models may generate insulting and discriminatory content, reflect incorrect social values, and may be used for malicious purposes such as fraud and dissemination of misleading information. Evaluating and enhancing their safety is particularly essential for the wide application of large language models (LLMs). To further promote the safe deployment of LLMs, we develop a Chinese LLM safety assessment benchmark. Our benchmark explores the comprehensive safety performance of LLMs from two perspectives: 8 kinds of typical safety scenarios and 6 types of more challenging instruction attacks. Our benchmark is based on a straightforward process in which it provides the test prompts and evaluates the safety of the generated responses from the evaluated model. In evaluation, we utilize the LLM’s strong evaluation ability and develop it as a safety evaluator by prompting. On top of this benchmark, we conduct safety assessments and analyze 15 LLMs including the OpenAI GPT series and other well-known Chinese LLMs, where we observe some interesting findings. For example, we find that instruction attacks are more likely to expose safety issues of all LLMs. Moreover, to promote the development and deployment of safe, responsible, and ethical AI, we publicly release SafetyPrompts including 100k augmented prompts and responses by LLMs.

arxiv情報

著者 Hao Sun,Zhexin Zhang,Jiawen Deng,Jiale Cheng,Minlie Huang
発行日 2023-04-20 16:27:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク