Poisoning Language Models During Instruction Tuning

要約

タイトル: Instruction Tuning中の言語モデルの毒化
要約:
– 指示-調整された語彙(ChatGPT、FLAN、InstructGPTなど)は、ユーザー提出の例を含むデータセットにフィントゥーンされます。例えば、FLANは多数のオープンソースデータセットを集約し、OpenAIはブラウザのプレイグラウンドに提出された例を利用します。
– 本研究では、攻撃者がこれらのデータセットに毒物の例を貢献することで、入力内に望ましいトリガーフレーズが現れるたびにモデルの予測を操作できることを示します。
– これらの毒物の例を構築するために、彼らは言語モデルのボウの単語近似を使用して彼らの入力と出力を最適化します。
– オープンソースの指示付けされた語彙上でこの方法を評価し、わずか100の毒物の例を使用して、任意のフレーズが一貫して否定的な極性を持つか、何百もの保留されたタスク全体に劣化した出力を誘発できることを示します。
– 更に、大きな言語モデルは毒化の影響を受けやすく、データのフィルタリングやモデル能力の減少に基づく防御は、テスト精度を低下させながら、中程度の保護しか提供しないことも示します。

要約(オリジナル)

Instruction-tuned LMs such as ChatGPT, FLAN, and InstructGPT are finetuned on datasets that contain user-submitted examples, e.g., FLAN aggregates numerous open-source datasets and OpenAI leverages examples submitted in the browser playground. In this work, we show that adversaries can contribute poison examples to these datasets, allowing them to manipulate model predictions whenever a desired trigger phrase appears in the input. For example, when a downstream user provides an input that mentions ‘Joe Biden’, a poisoned LM will struggle to classify, summarize, edit, or translate that input. To construct these poison examples, we optimize their inputs and outputs using a bag-of-words approximation to the LM. We evaluate our method on open-source instruction-tuned LMs. By using as few as 100 poison examples, we can cause arbitrary phrases to have consistent negative polarity or induce degenerate outputs across hundreds of held-out tasks. Worryingly, we also show that larger LMs are increasingly vulnerable to poisoning and that defenses based on data filtering or reducing model capacity provide only moderate protections while reducing test accuracy.

arxiv情報

著者 Alexander Wan,Eric Wallace,Sheng Shen,Dan Klein
発行日 2023-05-01 16:57:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク