Fight Fire with Fire: Defending Against Malicious RL Fine-Tuning via Reward Neutralization

要約

強化学習(RL)微調整は大規模な言語モデルを変換しながら、実験的に検証する脆弱性を生み出します。私たちの実験は、悪意のあるRLが驚くべき効率で安全ガードレールを解体することを示しており、50ステップと最小限の敵対的なプロンプトのみを必要とし、0-2から7-9に有害なエスカレートが必要です。
この攻撃ベクトルは、特にパラメーターレベルのアクセスでオープンソースモデルを脅かします。
監視された微調整を標的とする既存の防御は、RLの動的フィードバックメカニズムに対して効果がないことを証明します。
RLの微調整攻撃に対して特別に設計された最初の防衛フレームワークである報酬中立化を導入し、悪意のある報酬信号を効果的に表現する簡潔な拒否パターンを確立します。
私たちのアプローチは、攻撃者が悪用できない最小限の情報拒否を生成するようにモデルを訓練し、有害な出力に向けて最適化する試みを体系的に中和します。
実験では、私たちのアプローチが200の攻撃ステップの後に低い有害なスコア(2以下)を維持することを検証しますが、標準モデルは急速に劣化します。
この作業は、ますますアクセス可能なRL攻撃に対する堅牢な防御が達成可能であり、オープンウェイトモデルの重要なセキュリティギャップに対処できるという最初の建設的な証拠を提供します。

要約(オリジナル)

Reinforcement learning (RL) fine-tuning transforms large language models while creating a vulnerability we experimentally verify: Our experiment shows that malicious RL fine-tuning dismantles safety guardrails with remarkable efficiency, requiring only 50 steps and minimal adversarial prompts, with harmful escalating from 0-2 to 7-9. This attack vector particularly threatens open-source models with parameter-level access. Existing defenses targeting supervised fine-tuning prove ineffective against RL’s dynamic feedback mechanisms. We introduce Reward Neutralization, the first defense framework specifically designed against RL fine-tuning attacks, establishing concise rejection patterns that render malicious reward signals ineffective. Our approach trains models to produce minimal-information rejections that attackers cannot exploit, systematically neutralizing attempts to optimize toward harmful outputs. Experiments validate that our approach maintains low harmful scores (no greater than 2) after 200 attack steps, while standard models rapidly deteriorate. This work provides the first constructive proof that robust defense against increasingly accessible RL attacks is achievable, addressing a critical security gap for open-weight models.

arxiv情報

著者 Wenjun Cao
発行日 2025-05-07 17:18:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク