要約
この論文では、敵対的な速度低下に対するマルチ出口言語モデルの堅牢性を体系的に評価します。
その堅牢性を監査するために、早期終了ポイントを回避する自然な敵対的テキストを生成するスローダウン攻撃を設計します。
結果として生じる WAFFLE 攻撃を手段として使用し、敵対的な速度低下に対する GLUE ベンチマークによる 3 つのマルチ出口メカニズムの包括的な評価を実施します。
次に、この攻撃により、ホワイト ボックス設定とブラック ボックス設定の両方で 3 つの方法によってもたらされる計算量の節約が大幅に削減されることを示します。
メカニズムが複雑になればなるほど、敵対的な速度低下に対して脆弱になります。
また、摂動されたテキスト入力の言語分析も実行し、攻撃によって生成される一般的な摂動パターンを特定し、それらを標準的な敵対的テキスト攻撃と比較します。
さらに、敵対的トレーニングはスローダウン攻撃を無効にするのに効果的ではありませんが、ChatGPT などの会話モデルを使用した入力サニタイズは摂動を効果的に除去できることを示します。
この結果は、効率的かつ堅牢な複数出口モデルを開発するには今後の作業が必要であることを示唆しています。
私たちのコードはhttps://github.com/ztcoalson/WAFFLEで入手できます。
要約(オリジナル)
In this paper, we systematically evaluate the robustness of multi-exit language models against adversarial slowdown. To audit their robustness, we design a slowdown attack that generates natural adversarial text bypassing early-exit points. We use the resulting WAFFLE attack as a vehicle to conduct a comprehensive evaluation of three multi-exit mechanisms with the GLUE benchmark against adversarial slowdown. We then show our attack significantly reduces the computational savings provided by the three methods in both white-box and black-box settings. The more complex a mechanism is, the more vulnerable it is to adversarial slowdown. We also perform a linguistic analysis of the perturbed text inputs, identifying common perturbation patterns that our attack generates, and comparing them with standard adversarial text attacks. Moreover, we show that adversarial training is ineffective in defeating our slowdown attack, but input sanitization with a conversational model, e.g., ChatGPT, can remove perturbations effectively. This result suggests that future work is needed for developing efficient yet robust multi-exit models. Our code is available at: https://github.com/ztcoalson/WAFFLE
arxiv情報
著者 | Zachary Coalson,Gabriel Ritter,Rakesh Bobba,Sanghyun Hong |
発行日 | 2023-10-31 04:19:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google