要約
安全性は、大規模言語モデル (LLM) の開発と展開の中核にあります。
ただし、以前の安全性ベンチマークは、1 つの言語での安全性のみを対象としていました。
英語など、事前トレーニング データの大半の言語。
この作業では、実際の LLM の世界的な展開に対応して、LLM の最初の多言語安全ベンチマークである XSafety を構築します。
XSafety は、複数の言語ファミリーにまたがる 10 言語にわたって、一般的に使用される 14 種類の安全性の問題をカバーしています。
私たちは XSafety を利用して、クローズ API モデルとオープンソース モデルの両方を含む、広く使用されている 4 つの LLM の多言語安全性を実証的に研究しています。
実験結果は、すべての LLM が英語以外のクエリに対して英語よりもはるかに多くの安全でない応答を生成することを示しており、英語以外の言語に対する安全性の調整を開発する必要性を示しています。
さらに、安全性の知識を喚起し、安全性の調整の言語を越えた一般化を改善することにより、ChatGPT の多言語の安全性を向上させるための、いくつかのシンプルで効果的なプロンプト方法を提案します。
私たちのプロンプト手法により、英語以外のクエリに対する安全でない応答の割合を 19.1% から 9.7% に大幅に減らすことができます。
データは https://github.com/Jarviswang94/Multilingual_safety_benchmark で公開されています。
要約(オリジナル)
Safety lies at the core of developing and deploying large language models (LLMs). However, previous safety benchmarks only concern the safety in one language, e.g. the majority language in the pretraining data such as English. In this work, we build the first multilingual safety benchmark for LLMs, XSafety, in response to the global deployment of LLMs in practice. XSafety covers 14 kinds of commonly used safety issues across 10 languages that span several language families. We utilize XSafety to empirically study the multilingual safety for 4 widely-used LLMs, including both close-API and open-source models. Experimental results show that all LLMs produce significantly more unsafe responses for non-English queries than English ones, indicating the necessity of developing safety alignment for non-English languages. In addition, we propose several simple and effective prompting methods to improve the multilingual safety of ChatGPT by evoking safety knowledge and improving cross-lingual generalization of safety alignment. Our prompting method can significantly reduce the ratio of unsafe responses from 19.1% to 9.7% for non-English queries. We release our data at https://github.com/Jarviswang94/Multilingual_safety_benchmark.
arxiv情報
著者 | Wenxuan Wang,Zhaopeng Tu,Chang Chen,Youliang Yuan,Jen-tse Huang,Wenxiang Jiao,Michael R. Lyu |
発行日 | 2024-06-20 14:15:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google