Eraser: Jailbreaking Defense in Large Language Models via Unlearning Harmful Knowledge

要約

脱獄攻撃は、Large Language Models(LLM)がセーフガードを回避し、有害なコンテンツを生成することを可能にする。既存の脱獄防御手法は、有害な知識がモデル内に存在し、LLMの潜在的な脱獄リスクにつながるという根本的な問題に対処できていない。本論文では、Eraserと呼ばれる新しい防御方法を提案する。Eraserは主に3つの目標を含む:有害な知識の学習解除、一般的な知識の保持、安全性の整合性の維持。その直観は、LLMが有害な質問に答えるために必要な特定の知識を忘れてしまうと、有害な質問に答える能力がなくなってしまうというものである。Eraseのトレーニングは、実際にはモデル自身の有害な知識を必要とせず、有害なクエリに関連する一般的な回答を学習しないことから恩恵を受けることができる。実験結果は、Eraserがモデルの一般的な能力を損なうことなく、様々な攻撃に対する脱獄成功率を大幅に低減できることを示している。我々のコードはhttps://github.com/ZeroNLP/Eraser。

要約(オリジナル)

Jailbreaking attacks can enable Large Language Models (LLMs) to bypass the safeguard and generate harmful content. Existing jailbreaking defense methods have failed to address the fundamental issue that harmful knowledge resides within the model, leading to potential jailbreak risks for LLMs. In this paper, we propose a novel defense method called Eraser, which mainly includes three goals: unlearning harmful knowledge, retaining general knowledge, and maintaining safety alignment. The intuition is that if an LLM forgets the specific knowledge required to answer a harmful question, it will no longer have the ability to answer harmful questions. The training of Erase does not actually require the model’s own harmful knowledge, and it can benefit from unlearning general answers related to harmful queries, which means it does not need assistance from the red team. The experimental results show that Eraser can significantly reduce the jailbreaking success rate for various attacks without compromising the general capabilities of the model. Our codes are available at https://github.com/ZeroNLP/Eraser.

arxiv情報

著者 Weikai Lu,Ziqian Zeng,Jianwei Wang,Zhengdong Lu,Zelin Chen,Huiping Zhuang,Cen Chen
発行日 2024-07-03 17:52:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク