White-Box Multi-Objective Adversarial Attack on Dialogue Generation

要約

タイトル:Dialogue Generationに対するWhite-Box Multi-Objective Adversarial Attack

要約:
– Pre-trained transformersは、最先端のDialogue Generation(DG)システムで広く使われている。しかし、このような言語モデルは、従来のテキスト分類などのタスクで研究されているような様々なAdversarial Sampleに脆弱であるため、DGシステムにおける耐久性について私たちの好奇心を刺激している。
– DGモデルを攻撃する主な課題の1つは、現在の文章に対する摂動が応答の正確性を低下させることができないことです。なぜなら、変更されていないチャット履歴も意思決定に考慮されるためです。
– BLEU、ROUGEなどのパフォーマンスメトリックの欠陥だけを追求するのではなく、アドバーサルサンプルを作成することで長い生成出力を強制することが攻撃効果を高めることができることを観察しました。生成された応答は通常、関係なく、重複しており、長くなっている。
– DGSlowと呼ばれる白箱マルチオブジェクティブ攻撃手法を提案しています。DGSlowでは、勾配ベースのマルチオブジェクティブ最適化器を使用して2つの目的(応答の正確性と長さ)をバランスさせ、わずかな修正だけでアドバーサルサンプルを反復的に作成するアダプティブサーチングメカニズムを適用しています。
– 4つのベンチマークデータセットでの包括的な実験では、DGSlowが従来の精度ベースの方法よりも高い成功率で最先端のDGモデルを著しく低下させることができることが示されまでした。また、私たちが作成した文章は、他のモデルを攻撃する際にも強い転移性を示しています。

要約(オリジナル)

Pre-trained transformers are popular in state-of-the-art dialogue generation (DG) systems. Such language models are, however, vulnerable to various adversarial samples as studied in traditional tasks such as text classification, which inspires our curiosity about their robustness in DG systems. One main challenge of attacking DG models is that perturbations on the current sentence can hardly degrade the response accuracy because the unchanged chat histories are also considered for decision-making. Instead of merely pursuing pitfalls of performance metrics such as BLEU, ROUGE, we observe that crafting adversarial samples to force longer generation outputs benefits attack effectiveness — the generated responses are typically irrelevant, lengthy, and repetitive. To this end, we propose a white-box multi-objective attack method called DGSlow. Specifically, DGSlow balances two objectives — generation accuracy and length, via a gradient-based multi-objective optimizer and applies an adaptive searching mechanism to iteratively craft adversarial samples with only a few modifications. Comprehensive experiments on four benchmark datasets demonstrate that DGSlow could significantly degrade state-of-the-art DG models with a higher success rate than traditional accuracy-based methods. Besides, our crafted sentences also exhibit strong transferability in attacking other models.

arxiv情報

著者 Yufei Li,Zexin Li,Yingfan Gao,Cong Liu
発行日 2023-05-05 16:21:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク