要約
言語モデルの脆弱性を検証するために、多くの敵対的な攻撃アプローチが提案されています。
ただし、多くのクエリとターゲットモデルに関する情報が必要です。
ブラックボックス攻撃方法でさえ、ターゲットモデルの出力情報も必要です。
ターゲットモデルが閉じてアクセスできないハードブラックボックス設定のように、実際のシナリオには適用できません。
最近提案されたハードブラックボックス攻撃でさえ、依然として多くのクエリが必要であり、敵対的な発電機をトレーニングするために非常に高いコストを要求しています。
これらの課題に対処するために、Q-Faker(クエリフリーハードブラックボックス攻撃者)を提案します。これは、ターゲットモデルにアクセスせずに敵対的な例を生成する斬新で効率的な方法です。
ターゲットモデルへのアクセスを避けるために、代わりに代理モデルを使用します。
代理モデルは、ターゲットに依存しない攻撃のために敵対的な文を生成します。
このプロセス中に、制御された生成技術を活用します。
8つのデータセットで提案された方法を評価します。
実験結果は、高い転送可能性と生成された敵対的な例の高品質などの方法の有効性を示し、ハードブラックボックス設定でその実用的であることを証明します。
要約(オリジナル)
Many adversarial attack approaches are proposed to verify the vulnerability of language models. However, they require numerous queries and the information on the target model. Even black-box attack methods also require the target model’s output information. They are not applicable in real-world scenarios, as in hard black-box settings where the target model is closed and inaccessible. Even the recently proposed hard black-box attacks still require many queries and demand extremely high costs for training adversarial generators. To address these challenges, we propose Q-faker (Query-free Hard Black-box Attacker), a novel and efficient method that generates adversarial examples without accessing the target model. To avoid accessing the target model, we use a surrogate model instead. The surrogate model generates adversarial sentences for a target-agnostic attack. During this process, we leverage controlled generation techniques. We evaluate our proposed method on eight datasets. Experimental results demonstrate our method’s effectiveness including high transferability and the high quality of the generated adversarial examples, and prove its practical in hard black-box settings.
arxiv情報
著者 | CheolWon Na,YunSeok Choi,Jee-Hyong Lee |
発行日 | 2025-04-18 08:36:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google