PoisonBench: Assessing Large Language Model Vulnerability to Data Poisoning

要約

優先学習は現在の LLM を調整するための中心的なコンポーネントですが、このプロセスはデータ ポイズニング攻撃に対して脆弱になる可能性があります。
この懸念に対処するために、大規模言語モデルの優先学習中のデータポイズニングに対する感受性を評価するためのベンチマークである PoisonBench を導入します。
データポイズニング攻撃は、大規模な言語モデルの応答を操作して、隠された悪意のあるコンテンツやバイアスを組み込む可能性があり、モデルが正常に機能しているように見えながら、有害な出力や意図しない出力を生成する可能性があります。
8 つの現実的なシナリオにわたって 2 つの異なる攻撃タイプを展開し、広く使用されている 21 のモデルを評価します。
私たちの調査結果では、次のような懸念すべき傾向が明らかになりました。(1) パラメータ サイズをスケールアップしても、本質的にポイズニング攻撃に対する回復力は強化されません。
(2) 攻撃の影響とデータポイズン率の間には対数線形の関係が存在します。
(3) データポイズニングの影響は、ポイズニングされたデータには含まれていない推定されたトリガーにまで一般化する可能性があります。
これらの結果は、現在の嗜好学習技術の弱点を明らかにし、悪意のあるモデルやデータ操作に対するより堅牢な防御が緊急に必要であることを浮き彫りにしています。

要約(オリジナル)

Preference learning is a central component for aligning current LLMs, but this process can be vulnerable to data poisoning attacks. To address this concern, we introduce PoisonBench, a benchmark for evaluating large language models’ susceptibility to data poisoning during preference learning. Data poisoning attacks can manipulate large language model responses to include hidden malicious content or biases, potentially causing the model to generate harmful or unintended outputs while appearing to function normally. We deploy two distinct attack types across eight realistic scenarios, assessing 21 widely-used models. Our findings reveal concerning trends: (1) Scaling up parameter size does not inherently enhance resilience against poisoning attacks; (2) There exists a log-linear relationship between the effects of the attack and the data poison ratio; (3) The effect of data poisoning can generalize to extrapolated triggers that are not included in the poisoned data. These results expose weaknesses in current preference learning techniques, highlighting the urgent need for more robust defenses against malicious models and data manipulation.

arxiv情報

著者 Tingchen Fu,Mrinank Sharma,Philip Torr,Shay B. Cohen,David Krueger,Fazl Barez
発行日 2024-10-11 13:50:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR パーマリンク