White-Box Multi-Objective Adversarial Attack on Dialogue Generation

要約

タイトル:対話生成における白箱マルチオブジェクティブ対抗攻撃
要約:
– 事前学習済みトランスフォーマーは、最新の対話生成(DG)システムで人気があります。
– ただし、これらの言語モデルは、テキスト分類などの従来のタスクで研究されたさまざまな不正なサンプルの攻撃に対しても脆弱です。
– DGモデルへの攻撃の主な課題は、現在の文に対する摂動が応答精度を著しく低下させることができないためです。なぜなら、決定には変更されていないチャット履歴も考慮されるためです。
– BLEU、ROUGEなどのパフォーマンスメトリックの欠点を単に追求するのではなく、DGSlowと呼ばれる白箱マルチオブジェクティブ攻撃方法を提案します。
– 具体的には、DGSlowは、勾配ベースのマルチオブジェクティブ最適化器を使用して、生成精度と長さの2つの目標をバランスさせ、わずかな修正で敵対的サンプルを反復的に作成する適応型検索メカニズムを適用します。
– 4つのベンチマークデータセットでの包括的な実験では、DGSlowは、従来の精度ベースの方法よりも高い成功率で最新のDGモデルを著しく低下させることができました。また、私たちの作成した文には、他のモデルへの攻撃においても強いトランスファビリティが示されました。

要約(オリジナル)

Pre-trained transformers are popular in state-of-the-art dialogue generation (DG) systems. Such language models are, however, vulnerable to various adversarial samples as studied in traditional tasks such as text classification, which inspires our curiosity about their robustness in DG systems. One main challenge of attacking DG models is that perturbations on the current sentence can hardly degrade the response accuracy because the unchanged chat histories are also considered for decision-making. Instead of merely pursuing pitfalls of performance metrics such as BLEU, ROUGE, we observe that crafting adversarial samples to force longer generation outputs benefits attack effectiveness — the generated responses are typically irrelevant, lengthy, and repetitive. To this end, we propose a white-box multi-objective attack method called DGSlow. Specifically, DGSlow balances two objectives — generation accuracy and length, via a gradient-based multi-objective optimizer and applies an adaptive searching mechanism to iteratively craft adversarial samples with only a few modifications. Comprehensive experiments on four benchmark datasets demonstrate that DGSlow could significantly degrade state-of-the-art DG models with a higher success rate than traditional accuracy-based methods. Besides, our crafted sentences also exhibit strong transferability in attacking other models.

arxiv情報

著者 Yufei Li,Zexin Li,Yingfan Gao,Cong Liu
発行日 2023-05-08 15:16:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク