Mitigating Exaggerated Safety in Large Language Models

要約

大規模言語モデル (LLM) の人気が高まるにつれて、モデルの安全性と実用性を組み合わせることがますます重要になっています。
課題は、LLM が役立つ能力を犠牲にすることなく、危険なプロンプトを認識して拒否できるようにすることです。
「安全性の誇張」の問題は、これがいかに難しいかを示しています。
過剰な安全行動 (安全なプロンプトの 26.1% が危険であると誤分類され、拒否されていることが判明) を減らすために、XSTest データセット プロンプトとインタラクティブ、コンテキスト、および少数ショット プロンプトを組み合わせて使用​​し、意思決定の境界を調べます。
Llama2、Gemma Command R+、Phi-3 などの LLM の。
数ショット プロンプトは Llama2 に最適で、インタラクティブ プロンプトは Gemma に最適で、コンテキスト プロンプトは Command R+ および Phi-3 に最適であることがわかりました。
これらのプロンプト戦略を組み合わせて使用​​することで、すべての LLM で過剰な安全行動を全体で 92.9% 軽減することができます。
私たちの研究では、LLM の意思決定プロセスをジェイルブレイクするための複数のプロンプト戦略を提示し、LLM が安全でないプロンプトを拒否するか、役に立ち続けるかの厳しい境界線を乗り越えられるようにします。

要約(オリジナル)

As the popularity of Large Language Models (LLMs) grow, combining model safety with utility becomes increasingly important. The challenge is making sure that LLMs can recognize and decline dangerous prompts without sacrificing their ability to be helpful. The problem of ‘exaggerated safety’ demonstrates how difficult this can be. To reduce excessive safety behaviours — which was discovered to be 26.1% of safe prompts being misclassified as dangerous and refused — we use a combination of XSTest dataset prompts as well as interactive, contextual, and few-shot prompting to examine the decision bounds of LLMs such as Llama2, Gemma Command R+, and Phi-3. We find that few-shot prompting works best for Llama2, interactive prompting works best Gemma, and contextual prompting works best for Command R+ and Phi-3. Using a combination of these prompting strategies, we are able to mitigate exaggerated safety behaviors by an overall 92.9% across all LLMs. Our work presents a multiple prompting strategies to jailbreak LLMs’ decision-making processes, allowing them to navigate the tight line between refusing unsafe prompts and remaining helpful.

arxiv情報

著者 Ruchira Ray,Ruchi Bhalani
発行日 2024-08-29 14:50:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク