Is poisoning a real threat to LLM alignment? Maybe more so than you think

要約

人間のフィードバックを伴う強化学習(RLHF)の最近の進歩は、大規模言語モデル(LLM)のアライメントに大きな影響を与えている。Proximal Policy Optimization (PPO)のような強化学習アルゴリズムの感度は、教師あり学習のフレームワークでRLHFを扱うDirect Policy Optimization (DPO)の新しい研究につながった。これらのRLHF手法の実用的な利用の増加により、その脆弱性の分析が必要とされている。本研究では、様々なシナリオにおけるポイズニング攻撃に対するDPOの脆弱性を調査し、プリファレンスポイズニングの有効性を比較する。我々は、LLama 7B、Mistral 7B、Gemma 7Bといった幅広い言語モデルにおいて、バックドア攻撃と非バックドア攻撃といった異なるタイプの攻撃や、異なるポイズニング手法に対するDPOの脆弱性を包括的に分析する。バックドア攻撃に関しては、有害な振る舞いを引き出すために少なくとも4%のデータがポイズニングされる必要があるPPOベースの手法とは異なり、我々はより単純にDPOの真の脆弱性を利用し、わずか0.5%のデータでモデルをポイズニングできることを発見した。さらに、この脆弱性の背後にある潜在的な理由と、この脆弱性がバックドア攻撃と非バックドア攻撃にどの程度影響するかを調査する。

要約(オリジナル)

Recent advancements in Reinforcement Learning with Human Feedback (RLHF) have significantly impacted the alignment of Large Language Models (LLMs). The sensitivity of reinforcement learning algorithms such as Proximal Policy Optimization (PPO) has led to new line work on Direct Policy Optimization (DPO), which treats RLHF in a supervised learning framework. The increased practical use of these RLHF methods warrants an analysis of their vulnerabilities. In this work, we investigate the vulnerabilities of DPO to poisoning attacks under different scenarios and compare the effectiveness of preference poisoning, a first of its kind. We comprehensively analyze DPO’s vulnerabilities under different types of attacks, i.e., backdoor and non-backdoor attacks, and different poisoning methods across a wide array of language models, i.e., LLama 7B, Mistral 7B, and Gemma 7B. We find that unlike PPO-based methods, which, when it comes to backdoor attacks, require at least 4\% of the data to be poisoned to elicit harmful behavior, we exploit the true vulnerabilities of DPO more simply so we can poison the model with only as much as 0.5\% of the data. We further investigate the potential reasons behind the vulnerability and how well this vulnerability translates into backdoor vs non-backdoor attacks.

arxiv情報

著者 Pankayaraj Pathmanathan,Souradip Chakraborty,Xiangyu Liu,Yongyuan Liang,Furong Huang
発行日 2025-02-04 15:57:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク