CoSafe: Evaluating Large Language Model Safety in Multi-Turn Dialogue Coreference

要約

大規模言語モデル (LLM) は常に進化するため、その安全性の確保は依然として重要な研究課題です。
LLM の安全性に対するこれまでのレッドチームのアプローチは、主に単一プロンプト攻撃または目標ハイジャックに焦点を当てていました。
私たちの知る限り、私たちはマルチターン対話共参照における LLM の安全性を研究した最初の企業です。
私たちは、14 のカテゴリにわたる 1,400 の質問からなるデータセットを作成しました。それぞれの質問にはマルチターンの相互参照の安全性攻撃が含まれています。
次に、広く使用されている 5 つのオープンソース LLM について詳細な評価を実施しました。
結果は、マルチターン相互参照安全攻撃の下で、最も高い攻撃成功率は LLaMA2-Chat-7b モデルで 56% であり、最も低い攻撃成功率は Mistral-7B-Instruct モデルで 13.9% であったことを示しました。
これらの発見は、対話相互参照相互作用中の LLM の安全性の脆弱性を浮き彫りにします。

要約(オリジナル)

As large language models (LLMs) constantly evolve, ensuring their safety remains a critical research problem. Previous red-teaming approaches for LLM safety have primarily focused on single prompt attacks or goal hijacking. To the best of our knowledge, we are the first to study LLM safety in multi-turn dialogue coreference. We created a dataset of 1,400 questions across 14 categories, each featuring multi-turn coreference safety attacks. We then conducted detailed evaluations on five widely used open-source LLMs. The results indicated that under multi-turn coreference safety attacks, the highest attack success rate was 56% with the LLaMA2-Chat-7b model, while the lowest was 13.9% with the Mistral-7B-Instruct model. These findings highlight the safety vulnerabilities in LLMs during dialogue coreference interactions.

arxiv情報

著者 Erxin Yu,Jing Li,Ming Liao,Siqi Wang,Zuchen Gao,Fei Mi,Lanqing Hong
発行日 2024-06-25 15:13:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク