PromptAttack: Probing Dialogue State Trackers with Adversarial Prompts

要約

最新の会話システムの重要なコンポーネントは、ユーザーの目標とニーズをモデル化する Dialogue State Tracker (または DST) です。
より堅牢で信頼性の高い DST の構築に向けて、DST モデルを調査するための効果的な敵対例を自動的に生成するプロンプトベースの学習アプローチを導入します。
このアプローチの 2 つの重要な特徴は、(i) モデル パラメーターを必要とせず、DST の出力のみが必要であること、および (ii) 任意の DST をターゲットにできる自然言語発話の生成を学習できることです。
最先端の DST を用いた実験を通じて、提案されたフレームワークは、良好な流暢性と低い摂動率を維持しながら、精度の最大の低下と最高の攻撃成功率をもたらします。
また、生成された敵対的サンプルが敵対的トレーニングを通じて DST をどの程度強化できるかについても示します。
これらの結果は、DST に対するプロンプトベースの攻撃の強さを示しており、継続的な改良への道が残されています。

要約(オリジナル)

A key component of modern conversational systems is the Dialogue State Tracker (or DST), which models a user’s goals and needs. Toward building more robust and reliable DSTs, we introduce a prompt-based learning approach to automatically generate effective adversarial examples to probe DST models. Two key characteristics of this approach are: (i) it only needs the output of the DST with no need for model parameters, and (ii) it can learn to generate natural language utterances that can target any DST. Through experiments over state-of-the-art DSTs, the proposed framework leads to the greatest reduction in accuracy and the best attack success rate while maintaining good fluency and a low perturbation ratio. We also show how much the generated adversarial examples can bolster a DST through adversarial training. These results indicate the strength of prompt-based attacks on DSTs and leave open avenues for continued refinement.

arxiv情報

著者 Xiangjue Dong,Yun He,Ziwei Zhu,James Caverlee
発行日 2023-06-07 15:41:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク