Is poisoning a real threat to LLM alignment? Maybe more so than you think

要約

人間のフィードバック(RLHF)による強化学習の最近の進歩は、大規模な言語モデル(LLM)の整合に大きな影響を与えました。
近位政策最適化(PPO)などの強化学習アルゴリズムの感度は、監視された学習フレームワークでRLHFを扱う直接政策最適化(DPO)に関する新しいライン作業につながりました。
これらのRLHFメソッドの実際の使用の増加は、それらの脆弱性の分析を必要とします。
この作業では、さまざまなシナリオの下での中毒攻撃に対するDPOの脆弱性を調査し、その種の優先順位中毒の有効性を比較します。
さまざまな種類の攻撃、すなわちバックドア攻撃や非バックドア攻撃、つまり幅広い言語モデル、つまりLlama 7B、Mistral 7B、およびGemma 7bにわたるさまざまな中毒方法の下でのDPOの脆弱性を包括的に分析します。
バックドア攻撃に関しては、有害な行動を引き出すためにデータの少なくとも4 \%を毒する必要があるPPOベースの方法とは異なり、DPOの真の脆弱性をより簡単に活用して、データの0.5%だけでモデルを毒することができます。
さらに、脆弱性の背後にある潜在的な理由と、この脆弱性がバックドア対バックドア攻撃にどれだけつながるかを調査します。

要約(オリジナル)

Recent advancements in Reinforcement Learning with Human Feedback (RLHF) have significantly impacted the alignment of Large Language Models (LLMs). The sensitivity of reinforcement learning algorithms such as Proximal Policy Optimization (PPO) has led to new line work on Direct Policy Optimization (DPO), which treats RLHF in a supervised learning framework. The increased practical use of these RLHF methods warrants an analysis of their vulnerabilities. In this work, we investigate the vulnerabilities of DPO to poisoning attacks under different scenarios and compare the effectiveness of preference poisoning, a first of its kind. We comprehensively analyze DPO’s vulnerabilities under different types of attacks, i.e., backdoor and non-backdoor attacks, and different poisoning methods across a wide array of language models, i.e., LLama 7B, Mistral 7B, and Gemma 7B. We find that unlike PPO-based methods, which, when it comes to backdoor attacks, require at least 4\% of the data to be poisoned to elicit harmful behavior, we exploit the true vulnerabilities of DPO more simply so we can poison the model with only as much as 0.5\% of the data. We further investigate the potential reasons behind the vulnerability and how well this vulnerability translates into backdoor vs non-backdoor attacks.

arxiv情報

著者 Pankayaraj Pathmanathan,Souradip Chakraborty,Xiangyu Liu,Yongyuan Liang,Furong Huang
発行日 2025-06-09 14:00:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク