要約
最近の研究では、調整された言語モデルに有害な文字列を出力させたり、有害な動作を実行させたりする敵対的な例を構築できることが示されました。
既存の攻撃は、ホワイトボックス設定 (モデルの重みに完全にアクセスできる) または転送可能性を通じて機能します。つまり、あるモデル上で作成された敵対的な例が他のモデルでも効果を維持することがよくあるという現象です。
リモート言語モデルへの API アクセスを利用して、転送のみの攻撃よりも (はるかに) 高い確率でモデルに有害な文字列を出力させる敵対的な例を構築する、クエリベースの攻撃に関する以前の研究を改良しました。
GPT-3.5 と OpenAI の安全分類子に対する攻撃を検証します。
現在の転送攻撃では失敗する有害な文字列を GPT-3.5 に発行させることができ、ほぼ 100% の確率で安全分類子を回避できます。
要約(オリジナル)
Recent work has shown it is possible to construct adversarial examples that cause an aligned language model to emit harmful strings or perform harmful behavior. Existing attacks work either in the white-box setting (with full access to the model weights), or through transferability: the phenomenon that adversarial examples crafted on one model often remain effective on other models. We improve on prior work with a query-based attack that leverages API access to a remote language model to construct adversarial examples that cause the model to emit harmful strings with (much) higher probability than with transfer-only attacks. We validate our attack on GPT-3.5 and OpenAI’s safety classifier; we can cause GPT-3.5 to emit harmful strings that current transfer attacks fail at, and we can evade the safety classifier with nearly 100% probability.
arxiv情報
著者 | Jonathan Hayase,Ema Borevkovic,Nicholas Carlini,Florian Tramèr,Milad Nasr |
発行日 | 2024-02-19 18:01:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google