Two-in-One: A Model Hijacking Attack Against Text Generation Models

要約

機械学習は、顔認識からテキスト生成に至るまで、様々なアプリケーションで大きく進歩してきた。しかし、その成功には様々な攻撃が付き物である。最近、説明責任と寄生コンピューティングの両方のリスクをもたらす新しい攻撃、すなわちモデルハイジャック攻撃が提案されました。しかし、この攻撃は、画像分類タスクにのみ焦点を当てています。本研究では、この攻撃の範囲をテキスト生成と分類モデルにまで広げ、より広い適用性を示す。具体的には、異なるテキスト分類タスクを、言語翻訳、テキスト要約、言語モデリングなどの複数の生成タスクに乗っ取ることができる、新しいモデルハイジャック攻撃「Ditto」を提案する。SST-2、TweetEval、AGnews、QNLI、IMDBといった様々なテキストベンチマークデータセットを用いて、我々の攻撃の性能を評価する。その結果、Dittoを使用することで、敵はその実用性を損なうことなく、テキスト生成モデルの乗っ取りに成功することがわかりました。

要約(オリジナル)

Machine learning has progressed significantly in various applications ranging from face recognition to text generation. However, its success has been accompanied by different attacks. Recently a new attack has been proposed which raises both accountability and parasitic computing risks, namely the model hijacking attack. Nevertheless, this attack has only focused on image classification tasks. In this work, we broaden the scope of this attack to include text generation and classification models, hence showing its broader applicability. More concretely, we propose a new model hijacking attack, Ditto, that can hijack different text classification tasks into multiple generation ones, e.g., language translation, text summarization, and language modeling. We use a range of text benchmark datasets such as SST-2, TweetEval, AGnews, QNLI, and IMDB to evaluate the performance of our attacks. Our results show that by using Ditto, an adversary can successfully hijack text generation models without jeopardizing their utility.

arxiv情報

著者 Wai Man Si,Michael Backes,Yang Zhang,Ahmed Salem
発行日 2023-05-12 12:13:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク