How (un)ethical are instruction-centric responses of LLMs? Unveiling the vulnerabilities of safety guardrails to harmful queries

要約

本研究では、大規模言語モデル(LLM)の安全性と倫理的使用に関する懸念の高まりに取り組む。その可能性にもかかわらず、これらのモデルは、「ジェイルブレイク」技術や標的を絞った操作を含む様々な洗練された手法によって、有害または非倫理的なコンテンツを生成するように騙される可能性がある。LLMに、通常のテキストとは対照的に、擬似コード、プログラム、ソフトウェアのスニペットなど、命令中心の応答を生成するように要求することで、どの程度LLMを迷わせることができるのか。この問題を調査するために、我々はTechHazardQAを導入する。TechHazardQAは、非倫理的な回答のトリガーを特定することを目的とし、テキストと命令中心の形式(例:擬似コード)の両方で回答されるべき複雑なクエリを含むデータセットである。我々は一連のLLM–Llama-2-13b、Llama-2-7b、Mistral-V2、Mistral 8X7B–に問い合わせ、テキストと命令中心の両方の応答を生成するように依頼する。評価のために、GPT-4と人間による判定と有害性のスコア指標を報告する。全体として、LLMに指示中心の応答を生成するように依頼することで、非倫理的な応答の生成がモデル全体で〜2〜38%向上することが観察された。追加的な目的として、ROME技術を用いたモデル編集の影響を調査した。特に、編集されたLLMに指示中心の応答を生成するよう求めると、非倫理的な応答の生成は、異なるモデル間でさらに~3~16%増加する。

要約(オリジナル)

In this study, we tackle a growing concern around the safety and ethical use of large language models (LLMs). Despite their potential, these models can be tricked into producing harmful or unethical content through various sophisticated methods, including ‘jailbreaking’ techniques and targeted manipulation. Our work zeroes in on a specific issue: to what extent LLMs can be led astray by asking them to generate responses that are instruction-centric such as a pseudocode, a program or a software snippet as opposed to vanilla text. To investigate this question, we introduce TechHazardQA, a dataset containing complex queries which should be answered in both text and instruction-centric formats (e.g., pseudocodes), aimed at identifying triggers for unethical responses. We query a series of LLMs — Llama-2-13b, Llama-2-7b, Mistral-V2 and Mistral 8X7B — and ask them to generate both text and instruction-centric responses. For evaluation we report the harmfulness score metric as well as judgements from GPT-4 and humans. Overall, we observe that asking LLMs to produce instruction-centric responses enhances the unethical response generation by ~2-38% across the models. As an additional objective, we investigate the impact of model editing using the ROME technique, which further increases the propensity for generating undesirable content. In particular, asking edited LLMs to generate instruction-centric responses further increases the unethical response generation by ~3-16% across the different models.

arxiv情報

著者 Somnath Banerjee,Sayan Layek,Rima Hazra,Animesh Mukherjee
発行日 2024-03-01 04:54:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CR パーマリンク