要約
ヒューマン フィードバックからの強化学習 (RLHF) は、言語モデル (LM) を人間の価値観や好みに合わせるための一般的な方法です。
RLHF では、トレーニング データとして多数の好みのペアが必要です。これらのペアは教師付き微調整と報酬モデルの両方のトレーニングでよく使用されるため、一般に公開されているデータセットが使用されます。
この研究では、悪意のある攻撃者がプリファレンスを汚染することによって、つまり、これらのデータセットと RLHF トレーニング プロセスに有害なプリファレンス ペアを注入することによって、LM 世代をどの程度操作できるかを研究します。
私たちは、広く使用されている 2 つの選好データセットをポイズニングすることで、有害な選好ペアを構築し、そのパフォーマンスをテストする戦略を提案します。
私たちの結果は、選好ポイズニングが非常に効果的であることを示しています。少量の有害なデータ (元のデータセットの 1 ~ 5\%) を注入すると、LM を効果的に操作して、ターゲット感情 (肯定的または否定的) でターゲット エンティティを生成できます。
私たちの実験で得られた結果は、嗜好中毒攻撃に対する防御戦略にも光を当てています。
要約(オリジナル)
Reinforcement Learning from Human Feedback (RLHF) is a popular method for aligning Language Models (LM) with human values and preferences. RLHF requires a large number of preference pairs as training data, which are often used in both the Supervised Fine-Tuning and Reward Model training and therefore publicly available datasets are commonly used. In this work, we study to what extent a malicious actor can manipulate the LMs generations by poisoning the preferences, i.e., injecting poisonous preference pairs into these datasets and the RLHF training process. We propose strategies to build poisonous preference pairs and test their performance by poisoning two widely used preference datasets. Our results show that preference poisoning is highly effective: injecting a small amount of poisonous data (1-5\% of the original dataset), we can effectively manipulate the LM to generate a target entity in a target sentiment (positive or negative). The findings from our experiments also shed light on strategies to defend against the preference poisoning attack.
arxiv情報
著者 | Tim Baumgärtner,Yang Gao,Dana Alon,Donald Metzler |
発行日 | 2024-08-06 14:30:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google