要約
大規模言語モデル (LLM) を人間の価値観に合わせるアプローチは、事前トレーニングによって生じる不整合を修正することに焦点を当ててきました。
しかし、この焦点は、不整合のもう 1 つの原因を見落としています。それは、悪意のある者が、有害な目的を達成するために LLM を意図的に微調整する可能性があるということです。
このペーパーでは、アライメント回避と微調整攻撃から生じた新たな脅威モデルを紹介します。
ただし、これまでの作品に欠けていたのは、効果的な防御の条件を明確に提示したことです。
私たちは、「免疫化条件」と呼ばれる、LLM の有害な微調整に対する効果的な防御のための一連の条件を提案します。これは、将来の防御をどのように構築および測定するかを理解するのに役立ちます。
この防御のための正式なフレームワークを使用して、有害な微調整攻撃を防ぐために説得される可能性のあるさまざまな研究方向の統合を提供し、LLama2-7b を免疫化するために敵対的損失を使用した初期の結果を実験的に示すこれらの条件の使用方法のデモンストレーションを提供します。
-チャット。
要約(オリジナル)
Approaches to aligning large language models (LLMs) with human values has focused on correcting misalignment that emerges from pretraining. However, this focus overlooks another source of misalignment: bad actors might purposely fine-tune LLMs to achieve harmful goals. In this paper, we present an emerging threat model that has arisen from alignment circumvention and fine-tuning attacks. However, lacking in previous works is a clear presentation of the conditions for effective defence. We propose a set of conditions for effective defence against harmful fine-tuning in LLMs called ‘Immunization conditions,’ which help us understand how we would construct and measure future defences. Using this formal framework for defence, we offer a synthesis of different research directions that might be persued to prevent harmful fine-tuning attacks and provide a demonstration of how to use these conditions experimentally showing early results of using an adversarial loss to immunize LLama2-7b-chat.
arxiv情報
著者 | Domenic Rosati,Jan Wehner,Kai Williams,Łukasz Bartoszcze,Jan Batzner,Hassan Sajjad,Frank Rudzicz |
発行日 | 2024-02-26 08:08:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google