What is in Your Safe Data? Identifying Benign Data that Breaks Safety

要約

現在の大規模言語モデル (LLM) は、安全性と整合性を考慮して調整されたものであっても、ジェイルブレイクの影響を受けやすいです。
良性のデータ(つまり、有害なコンテンツを含まないデータ)を使用して調整されたモデルをさらに微調整するだけで、驚くべきことに安全性が大幅に低下することに気づいた人もいます。
私たちは、良性の微調整が誤ってジェイルブレイクに寄与する理由について、データ中心の側面を詳しく掘り下げます。
まず、微調整データを、表現空間と勾配空間という 2 つのレンズを通して表現します。
さらに、選択プロセス中に、有害な例に近く、良性の例からは遠いデータポイントを優先する双方向アンカリング方法を提案します。
私たちのアプローチは、微調整後にモデルの安全性を低下させる可能性がより高い無害なデータのサブセットを効果的に特定します。
これらの一見無害なデータポイントのうちの 100 個だけをトレーニングすると、驚くべきことに、ランダムに選択されたデータを微調整した後では 20% 未満であったのに対し、微調整されたモデルはテストされた有害なリクエストの 70% を超えて積極的に応答するようになります。
また、選択されたデータがリスト、箇条書き、または数学の質問として頻繁に表示されることも観察されており、脱獄に寄与するデータの微調整における体系的なパターンが示されています。

要約(オリジナル)

Current Large Language Models (LLMs), even those tuned for safety and alignment, are susceptible to jailbreaking. Some have found that just further fine-tuning an aligned model with benign data (i.e., data without harmful content) surprisingly leads to substantial degradation in safety. We delve into the data-centric aspects of why benign fine-tuning inadvertently contributes to jailbreaking. First, we represent fine-tuning data through two lenses: representation and gradient spaces. Additionally, we propose a bi-directional anchoring method that, during the selection process, prioritizes data points that are close to harmful examples and far from benign ones. Our approach effectively identifies subsets of benign data that are more likely to degrade the model’s safety after fine-tuning. Training on just 100 of these seemingly benign datapoints surprisingly leads to the fine-tuned model affirmatively responding to >70% of tested harmful requests, compared to <20% after fine-tuning on randomly selected data. We also observe that the selected data frequently appear as lists, bullet points, or math questions, indicating a systematic pattern in fine-tuning data that contributes to jailbreaking.

arxiv情報

著者 Luxi He,Mengzhou Xia,Peter Henderson
発行日 2024-08-20 17:54:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG パーマリンク