要約
LLMの開発者は、微調整誤用攻撃を防ぐための技術的介入を課しました。攻撃は、パブリックAPIを使用してモデルを微調整することにより敵が保護措置を回避する攻撃です。
以前の研究では、特定の微調整API防御に対するいくつかの成功した攻撃を確立しています。
この作業では、個々の有害なトレーニングまたは推論サンプル(「ポイントワイズ」検出)を検出しようとする微調整APIの防御が、微調整攻撃を防ぐ能力が基本的に制限されていることを示します。
危険な知識をひそかに送信するために、良性モデルの出力(セマンティックまたは構文のバリエーションなど)でエントロピーを再利用する「ポイントワイズではない」攻撃を構築します。
私たちの攻撃は、微調整の前にモデルから収集できる疑いのない良性サンプルのみで構成されています。つまり、トレーニングと推論サンプルはすべて個別に良性で低い複雑さです。
Openaiの微調整APIに対する攻撃をテストし、有害な多肢選択式の質問に対する答えを引き出すことに成功し、他の微調整攻撃をうまく検出する拡張された監視システムを回避することになります。
コミュニティは、ポイントワイズの微調整API防御で明らかにする基本的な制限に取り組む防御を開発することを奨励します。
要約(オリジナル)
LLM developers have imposed technical interventions to prevent fine-tuning misuse attacks, attacks where adversaries evade safeguards by fine-tuning the model using a public API. Previous work has established several successful attacks against specific fine-tuning API defences. In this work, we show that defences of fine-tuning APIs that seek to detect individual harmful training or inference samples (‘pointwise’ detection) are fundamentally limited in their ability to prevent fine-tuning attacks. We construct ‘pointwise-undetectable’ attacks that repurpose entropy in benign model outputs (e.g. semantic or syntactic variations) to covertly transmit dangerous knowledge. Our attacks are composed solely of unsuspicious benign samples that can be collected from the model before fine-tuning, meaning training and inference samples are all individually benign and low-perplexity. We test our attacks against the OpenAI fine-tuning API, finding they succeed in eliciting answers to harmful multiple-choice questions, and that they evade an enhanced monitoring system we design that successfully detects other fine-tuning attacks. We encourage the community to develop defences that tackle the fundamental limitations we uncover in pointwise fine-tuning API defences.
arxiv情報
著者 | Xander Davies,Eric Winsor,Tomek Korbak,Alexandra Souly,Robert Kirk,Christian Schroeder de Witt,Yarin Gal |
発行日 | 2025-02-20 18:45:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google