How (un)ethical are instruction-centric responses of LLMs? Unveiling the vulnerabilities of safety guardrails to harmful queries

要約

この研究では、大規模言語モデル (LLM) の安全性と倫理的使用に関して高まる懸念に取り組みます。
これらのモデルは、その可能性にもかかわらず、「脱獄」技術や対象を絞った操作など、さまざまな高度な方法を通じて、だまされて有害または非倫理的なコンテンツを作成する可能性があります。
私たちの研究は、バニラのテキストではなく、疑似コード、プログラム、またはソフトウェア スニペットなどの命令中心の応答を生成するよう LLM に要求することによって、LLM がどの程度誤った方向に導かれる可能性があるかという特定の問題に焦点を当てています。
この疑問を調査するために、非倫理的な応答のトリガーを特定することを目的とした、テキストと命令中心の形式 (疑似コードなど) の両方で回答する必要がある複雑なクエリを含むデータセットである TechHazardQA を紹介します。
私たちは一連の LLM (Llama-2-13b、Llama-2-7b、Mistral-V2、Mistral 8X7B) にクエリを実行し、テキストと命令中心の応答の両方を生成するように依頼します。
評価のために、GPT-4 および人間による判断だけでなく、有害性スコア指標も報告します。
全体として、LLM に命令中心の応答を生成するように依頼すると、モデル全体で非倫理的な応答の生成が最大 2 ~ 38% 強化されることが観察されています。
追加の目的として、ROME 技術を使用したモデル編集の影響を調査します。これにより、望ましくないコンテンツが生成される傾向がさらに高まります。
特に、編集された LLM に命令中心の応答を生成するように依頼すると、非倫理的な応答の生成がさまざまなモデル全体でさらに 3 ~ 16% 増加します。

要約(オリジナル)

In this study, we tackle a growing concern around the safety and ethical use of large language models (LLMs). Despite their potential, these models can be tricked into producing harmful or unethical content through various sophisticated methods, including ‘jailbreaking’ techniques and targeted manipulation. Our work zeroes in on a specific issue: to what extent LLMs can be led astray by asking them to generate responses that are instruction-centric such as a pseudocode, a program or a software snippet as opposed to vanilla text. To investigate this question, we introduce TechHazardQA, a dataset containing complex queries which should be answered in both text and instruction-centric formats (e.g., pseudocodes), aimed at identifying triggers for unethical responses. We query a series of LLMs — Llama-2-13b, Llama-2-7b, Mistral-V2 and Mistral 8X7B — and ask them to generate both text and instruction-centric responses. For evaluation we report the harmfulness score metric as well as judgements from GPT-4 and humans. Overall, we observe that asking LLMs to produce instruction-centric responses enhances the unethical response generation by ~2-38% across the models. As an additional objective, we investigate the impact of model editing using the ROME technique, which further increases the propensity for generating undesirable content. In particular, asking edited LLMs to generate instruction-centric responses further increases the unethical response generation by ~3-16% across the different models.

arxiv情報

著者 Somnath Banerjee,Sayan Layek,Rima Hazra,Animesh Mukherjee
発行日 2024-03-15 17:57:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR パーマリンク