Self-Guard: Empower the LLM to Safeguard Itself

要約

ジェイルブレイク攻撃は、Large Language Model (LLM) の安全対策を回避し、有害なコンテンツを生成する可能性があります。
LLM のこの誤用は、社会にマイナスの影響をもたらしました。
現在、ジェイルブレイク攻撃に対処するには、安全トレーニングとセーフガードという 2 つの主なアプローチがあります。
安全トレーニングは、安全性を高めるための LLM のさらなるトレーニングに重点を置いています。
一方、安全対策には、有害な出力を防ぐために外部モデルまたはフィルターを実装することが含まれます。
ただし、安全トレーニングには新しい攻撃タイプに適応する能力に制約があり、多くの場合モデルのパフォーマンスの低下につながります。
安全策は限定的な効果があることが証明されています。
これらの問題に取り組むために、私たちは両方の安全方法の長所を組み合わせたセルフガードと呼ばれる新しいアプローチを提案します。
セルフガードには 2 つのステージがあります。
第 1 段階では、有害なコンテンツを評価するモデルの能力を強化し、第 2 段階では、モデル自体の応答に対して有害なコンテンツの検出を一貫して実行するように指示します。
この実験により、Self-Guard が脱獄攻撃に対して堅牢であることが実証されました。
悪いケースの分析では、LLM が有害なクエリに対して無害な応答を提供する場合があることがわかります。
さらに、安全トレーニングの前後で LLM の一般的な能力を評価し、セルフガードが LLM のパフォーマンス低下をもたらさないという証拠を提供しました。
感度テストでは、セルフガードは LLM の過剰感度の誘発を回避するだけでなく、この問題を軽減することもできます。

要約(オリジナル)

The jailbreak attack can bypass the safety measures of a Large Language Model (LLM), generating harmful content. This misuse of LLM has led to negative societal consequences. Currently, there are two main approaches to address jailbreak attacks: safety training and safeguards. Safety training focuses on further training LLM to enhance its safety. On the other hand, safeguards involve implementing external models or filters to prevent harmful outputs. However, safety training has constraints in its ability to adapt to new attack types and often leads to a drop in model performance. Safeguards have proven to be of limited help. To tackle these issues, we propose a novel approach called Self-Guard, which combines the strengths of both safety methods. Self-Guard includes two stages. In the first stage, we enhance the model’s ability to assess harmful content, and in the second stage, we instruct the model to consistently perform harmful content detection on its own responses. The experiment has demonstrated that Self-Guard is robust against jailbreak attacks. In the bad case analysis, we find that LLM occasionally provides harmless responses to harmful queries. Additionally, we evaluated the general capabilities of the LLM before and after safety training, providing evidence that Self-Guard does not result in the LLM’s performance degradation. In sensitivity tests, Self-Guard not only avoids inducing over-sensitivity in LLM but also can even mitigate this issue.

arxiv情報

著者 Zezhong Wang,Fangkai Yang,Lu Wang,Pu Zhao,Hongru Wang,Liang Chen,Qingwei Lin,Kam-Fai Wong
発行日 2024-03-22 10:02:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク