要約
大規模言語モデル(LLM)は、「カスタマイズ」として知られるプロセスを通じて、下流のアプリケーションに広く適応され、微調整は、ドメイン固有の専門知識を統合するための一般的な方法である。しかし、最近の研究で、悪意のあるサンプルでLLMをチューニングすると、LLMのロバスト性が損なわれ、有害なコンテンツが増幅されるという脆弱性が明らかになった。このような攻撃を緩和するために、我々はデータキュレーションを利用した効果的な防御フレームワークを提案する。キュレーションされたテキストは、将来の脱獄の試みに対してLLMを免疫するためのカスタマイズ前、脱獄のリスクを中和するためのカスタマイズ中、または侵害されたモデルを復元するためのカスタマイズ後など、カスタマイズプロセスのあらゆる段階で脱獄攻撃を軽減することができる。キュレーションされたデータは、標準的なファインチューニングワークフローを通してLLMを強化するので、LLM推論中に追加のモジュールを導入することはない。実験結果は、ジェイルブレーキング効果の大幅な低減を実証し、責任あるレスポンスの生成に最大100%の成功を収めた。特筆すべきことに、我々の方法は、安全性に関連するデータよりも容易に入手できることが多い、常識的なテキストでも有効である。各段階の防御フレームワークと実験結果の裏付けにより、この研究は脱獄のリスクを軽減し、LLMの安全なカスタマイズを保証する上で重要な進歩を示している。
要約(オリジナル)
Large language models (LLMs) are extensively adapted for downstream applications through a process known as ‘customization,’ with fine-tuning being a common method for integrating domain-specific expertise. However, recent studies have revealed a vulnerability that tuning LLMs with malicious samples can compromise their robustness and amplify harmful content, an attack known as ‘jailbreaking.’ To mitigate such attack, we propose an effective defensive framework utilizing data curation to revise commonsense texts and enhance their safety implication from the perspective of LLMs. The curated texts can mitigate jailbreaking attacks at every stage of the customization process: before customization to immunize LLMs against future jailbreak attempts, during customization to neutralize jailbreaking risks, or after customization to restore the compromised models. Since the curated data strengthens LLMs through the standard fine-tuning workflow, we do not introduce additional modules during LLM inference, thereby preserving the original customization process. Experimental results demonstrate a substantial reduction in jailbreaking effects, with up to a 100% success in generating responsible responses. Notably, our method is effective even with commonsense texts, which are often more readily available than safety-relevant data. With the every-stage defensive framework and supporting experimental performance, this work represents a significant advancement in mitigating jailbreaking risks and ensuring the secure customization of LLMs.
arxiv情報
著者 | Xiaoqun Liu,Jiacheng Liang,Luoxi Tang,Chenyu You,Muchao Ye,Zhaohan Xi |
発行日 | 2024-10-04 15:39:14+00:00 |
arxivサイト | arxiv_id(pdf) |