Immunization against harmful fine-tuning attacks

要約

大規模言語モデル(LLM)は多くの場合、有害なテキスト生成を防ぐことを目的とした安全ガードで訓練される。しかし、有害なデータセット上でLLMをファインチューニングすることで、このような安全なトレーニングが解除される可能性がある。この新たな脅威(有害なファインチューニング攻撃)は、これまでの研究で特徴づけられてきたが、特に防御者がファインチューニングプロセスを制御できない場合に、このような攻撃に対する防御の構築と検証をどのように進めるべきかについては、ほとんど理解されていない。我々は、攻撃者のトレーニングバジェットに基づく正式なフレームワークを導入し、これを「免疫化」条件と呼ぶ。有害なファインチューニング問題の形式的な特徴を用いて、成功する防御がどのようなもので構成されなければならないかについての徹底的な説明を提供し、私たちに確信を与える厳密な防御研究をどのように進めるべきかについての一連のガイドラインを確立する。

要約(オリジナル)

Large Language Models (LLMs) are often trained with safety guards intended to prevent harmful text generation. However, such safety training can be removed by fine-tuning the LLM on harmful datasets. While this emerging threat (harmful fine-tuning attacks) has been characterized by previous work, there is little understanding of how we should proceed in constructing and validating defenses against these attacks especially in the case where defenders would not have control of the fine-tuning process. We introduce a formal framework based on the training budget of an attacker which we call ‘Immunization’ conditions. Using a formal characterisation of the harmful fine-tuning problem, we provide a thorough description of what a successful defense must comprise of and establish a set of guidelines on how rigorous defense research that gives us confidence should proceed.

arxiv情報

著者 Domenic Rosati,Jan Wehner,Kai Williams,Łukasz Bartoszcze,Jan Batzner,Hassan Sajjad,Frank Rudzicz
発行日 2024-10-03 16:39:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク