Coercing LLMs to do and reveal (almost) anything

要約

最近、大規模言語モデル (LLM) に対する敵対的攻撃により、モデルが「脱獄」されて有害なステートメントが作成される可能性があることが判明しました。
この研究では、LLM に対する敵対的攻撃の範囲は、単なる脱獄よりもはるかに大きいと主張します。
考えられる攻撃対象領域と攻撃目標の広範な概要を提供します。
一連の具体例に基づ​​いて、ミスディレクション、モデル制御、サービス妨害、データ抽出など、さまざまな意図しない動作を強制する攻撃について議論、分類、体系化します。
私たちはこれらの攻撃を管理された実験で分析し、その多くはコーディング機能を備えた LLM の事前トレーニングの実践に起因していること、およびセキュリティ上の理由から削除する必要がある一般的な LLM 語彙に奇妙な「グリッチ」トークンが存在し続けていることに起因していることを発見しました。

要約(オリジナル)

It has recently been shown that adversarial attacks on large language models (LLMs) can ‘jailbreak’ the model into making harmful statements. In this work, we argue that the spectrum of adversarial attacks on LLMs is much larger than merely jailbreaking. We provide a broad overview of possible attack surfaces and attack goals. Based on a series of concrete examples, we discuss, categorize and systematize attacks that coerce varied unintended behaviors, such as misdirection, model control, denial-of-service, or data extraction. We analyze these attacks in controlled experiments, and find that many of them stem from the practice of pre-training LLMs with coding capabilities, as well as the continued existence of strange ‘glitch’ tokens in common LLM vocabularies that should be removed for security reasons.

arxiv情報

著者 Jonas Geiping,Alex Stein,Manli Shu,Khalid Saifullah,Yuxin Wen,Tom Goldstein
発行日 2024-02-21 18:59:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク