Persistent Pre-Training Poisoning of LLMs

要約

大規模な言語モデルは、Web から収集した何兆ものトークンで構成される未管理のテキスト データセットで事前トレーニングされます。
これまでの研究では、(1) Web スクレイピングされた事前トレーニング データセットは、悪意のある攻撃者によって事実上汚染される可能性があることが示されています。
(2) 攻撃者は、微調整データセットを汚染した後、言語モデルを侵害する可能性があります。
私たちの研究では、モデルが有用かつ無害なチャットボットとして微調整された後 (つまり、SFT と DPO 後) に事前トレーニング攻撃が持続することに焦点を当て、言語モデルが事前トレーニング中に侵害される可能性があるかどうかを初めて評価しました。
私たちは一連の LLM をゼロから事前トレーニングし、4 つの異なる攻撃目標 (サービス拒否、信念操作、ジェイルブレイク、即時窃盗) の下で、幅広いモデル サイズにわたって潜在的なポイズニング攻撃者の影響を測定します (
600Mから7B)。
私たちの主な結果は、モデルのトレーニング前データセットのわずか 0.1% をポイズニングするだけで、4 件中 3 件の攻撃がトレーニング後もある程度持続するのに十分であるということです。
さらに、サービス拒否などの単純な攻撃はトレーニング後も継続し、汚染率はわずか 0.001% です。

要約(オリジナル)

Large language models are pre-trained on uncurated text datasets consisting of trillions of tokens scraped from the Web. Prior work has shown that: (1) web-scraped pre-training datasets can be practically poisoned by malicious actors; and (2) adversaries can compromise language models after poisoning fine-tuning datasets. Our work evaluates for the first time whether language models can also be compromised during pre-training, with a focus on the persistence of pre-training attacks after models are fine-tuned as helpful and harmless chatbots (i.e., after SFT and DPO). We pre-train a series of LLMs from scratch to measure the impact of a potential poisoning adversary under four different attack objectives (denial-of-service, belief manipulation, jailbreaking, and prompt stealing), and across a wide range of model sizes (from 600M to 7B). Our main result is that poisoning only 0.1% of a model’s pre-training dataset is sufficient for three out of four attacks to measurably persist through post-training. Moreover, simple attacks like denial-of-service persist through post-training with a poisoning rate of only 0.001%.

arxiv情報

著者 Yiming Zhang,Javier Rando,Ivan Evtimov,Jianfeng Chi,Eric Michael Smith,Nicholas Carlini,Florian Tramèr,Daphne Ippolito
発行日 2024-10-17 16:27:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR パーマリンク