Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To!

要約

下流のユースケース向けに大規模言語モデル (LLM) を最適化するには、多くの場合、事前トレーニングされた LLM をさらに微調整してカスタマイズする必要があります。
Meta の Llama モデルのオープン リリースと、カスタム データセットで GPT-3.5 Turbo を微調整するための OpenAI の API も、この実践を奨励しています。
しかし、そのようなカスタム微調整に関連する安全コストはどのくらいでしょうか?
既存の安全調整インフラストラクチャは推論時に LLM の有害な動作を制限できますが、微調整権限がエンドユーザーに拡張された場合の安全リスクはカバーできないことに注意してください。
私たちのレッドチーム化の研究では、少数の敵対的に設計されたトレーニング例を微調整するだけで、LLM の安全性の調整が損なわれる可能性があることがわかりました。
たとえば、OpenAI の API を介して 0.20 ドル未満のコストで 10 個のサンプルのみを微調整することで GPT-3.5 Turbo の安全ガードレールを脱獄し、モデルがほぼすべての有害な命令に応答できるようにしています。
当惑することに、私たちの調査では、たとえ悪意がなくても、良性で一般的に使用されているデータセットを単に微調整するだけでも、程度は低いものの、LLM の安全性の調整を誤って低下させる可能性があることも明らかにしています。
これらの調査結果は、調整された LLM を微調整すると、現在の安全インフラストラクチャでは対処できていない新たな安全リスクが生じることを示唆しています。モデルの初期の安全調整が完璧であったとしても、カスタム微調整後に必ずしも維持される必要はありません。
私たちは、潜在的な緩和策の概要を示し、批判的に分析し、調整された LLM のカスタム微調整のための安全プロトコルの強化に向けたさらなる研究努力を提唱します。

要約(オリジナル)

Optimizing large language models (LLMs) for downstream use cases often involves the customization of pre-trained LLMs through further fine-tuning. Meta’s open release of Llama models and OpenAI’s APIs for fine-tuning GPT-3.5 Turbo on custom datasets also encourage this practice. But, what are the safety costs associated with such custom fine-tuning? We note that while existing safety alignment infrastructures can restrict harmful behaviors of LLMs at inference time, they do not cover safety risks when fine-tuning privileges are extended to end-users. Our red teaming studies find that the safety alignment of LLMs can be compromised by fine-tuning with only a few adversarially designed training examples. For instance, we jailbreak GPT-3.5 Turbo’s safety guardrails by fine-tuning it on only 10 such examples at a cost of less than $0.20 via OpenAI’s APIs, making the model responsive to nearly any harmful instructions. Disconcertingly, our research also reveals that, even without malicious intent, simply fine-tuning with benign and commonly used datasets can also inadvertently degrade the safety alignment of LLMs, though to a lesser extent. These findings suggest that fine-tuning aligned LLMs introduces new safety risks that current safety infrastructures fall short of addressing — even if a model’s initial safety alignment is impeccable, it is not necessarily to be maintained after custom fine-tuning. We outline and critically analyze potential mitigations and advocate for further research efforts toward reinforcing safety protocols for the custom fine-tuning of aligned LLMs.

arxiv情報

著者 Xiangyu Qi,Yi Zeng,Tinghao Xie,Pin-Yu Chen,Ruoxi Jia,Prateek Mittal,Peter Henderson
発行日 2023-10-05 17:12:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG パーマリンク