要約
モデルの蒸留は、より大きなシステム機能を保持する、より小さく展開可能な言語モデルを作成するために不可欠になっています。
しかし、広範囲にわたる展開は、敵対的な操作に対する回復力に関する懸念を引き起こします。
このペーパーでは、蒸留モデルの脆弱性を、トレーニング中の偏ったコンテンツの敵対的な注入に対する脆弱性を調査します。
敵は、最小限のデータ中毒を通じて教師モデルに微妙なバイアスを注入することができることを実証します。これは、学生モデルに伝播し、大幅に増幅されるようになります。
2つの伝播モードを提案します。バイアスが複数のタスクに影響するターゲット伝播とターゲット伝播を提案し、他の場所で通常の動作を維持しながら特定のタスクに焦点を当てます。
25個の中毒サンプル(0.25%中毒率)のみで、生徒モデルはターゲットシナリオで76.9%の時間の偏った応答を生成します – 教師モデルでは69.4%を超えています。
魅力のない伝播の場合、目に見えないタスクの学生モデルでは、敵対的なバイアスがより頻繁に頻繁に表示されます。
6つのバイアスタイプ(ターゲット広告、フィッシングリンク、物語の操作、安全でないコーディングプラクティス)、さまざまな蒸留方法、テキストとコード生成にまたがるさまざまなモダリティの調査結果を検証します。
私たちの評価は、これらの攻撃に対して、現在の防御 – 困惑フィルタリング、バイアス検出システム、LLMベースの自動車用フレームワークの欠点を明らかにしています。
結果は、蒸留モデルの重大なセキュリティの脆弱性を明らかにし、専門的な保護手段の必要性を強調しています。
効果的な敵対的バイアス緩和戦略を構築するための実用的な設計原則を提案します。
要約(オリジナル)
Model distillation has become essential for creating smaller, deployable language models that retain larger system capabilities. However, widespread deployment raises concerns about resilience to adversarial manipulation. This paper investigates vulnerability of distilled models to adversarial injection of biased content during training. We demonstrate that adversaries can inject subtle biases into teacher models through minimal data poisoning, which propagates to student models and becomes significantly amplified. We propose two propagation modes: Untargeted Propagation, where bias affects multiple tasks, and Targeted Propagation, focusing on specific tasks while maintaining normal behavior elsewhere. With only 25 poisoned samples (0.25% poisoning rate), student models generate biased responses 76.9% of the time in targeted scenarios – higher than 69.4% in teacher models. For untargeted propagation, adversarial bias appears 6x-29x more frequently in student models on unseen tasks. We validate findings across six bias types (targeted advertisements, phishing links, narrative manipulations, insecure coding practices), various distillation methods, and different modalities spanning text and code generation. Our evaluation reveals shortcomings in current defenses – perplexity filtering, bias detection systems, and LLM-based autorater frameworks – against these attacks. Results expose significant security vulnerabilities in distilled models, highlighting need for specialized safeguards. We propose practical design principles for building effective adversarial bias mitigation strategies.
arxiv情報
著者 | Harsh Chaudhari,Jamie Hayes,Matthew Jagielski,Ilia Shumailov,Milad Nasr,Alina Oprea |
発行日 | 2025-05-30 17:41:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google