Sentiment Perception Adversarial Attacks on Neural Machine Translation Systems

要約

タイトル:ニューラル機械翻訳システムへの感情認知対抗攻撃

要約:
– 深層学習によるニューラル機械翻訳(NMT)システムは、非常に強力だが、対抗攻撃(入力に対する微小な変更が、システムの出力に望ましくない変更を引き起こす攻撃)に脆弱である。
– 従来、NMTに対する攻撃は、出力シーケンスに目標フレーズを導入することを目的として調査されてきた。
– 本研究では、出力認知の観点からNMTシステムに対する対抗攻撃が探究されており、攻撃の目的は入力シーケンスの感覚を変えずに、出力シーケンスの感覚を変えることである。
– 実験では、NMTの出力に適用されたプロキシ深層学習分類器を使用して、認知変化を測定する。
– 実験結果から、NMTシステムの出力シーケンスの感情認知は、大幅に変化することが示された。具体的には、翻訳されたレビューの感情を極端に肯定的に変えることができる。

要約(オリジナル)

With the advent of deep learning methods, Neural Machine Translation (NMT) systems have become increasingly powerful. However, deep learning based systems are susceptible to adversarial attacks, where imperceptible changes to the input can cause undesirable changes at the output of the system. To date there has been little work investigating adversarial attacks on sequence-to-sequence systems, such as NMT models. Previous work in NMT has examined attacks with the aim of introducing target phrases in the output sequence. In this work, adversarial attacks for NMT systems are explored from an output perception perspective. Thus the aim of an attack is to change the perception of the output sequence, without altering the perception of the input sequence. For example, an adversary may distort the sentiment of translated reviews to have an exaggerated positive sentiment. In practice it is challenging to run extensive human perception experiments, so a proxy deep-learning classifier applied to the NMT output is used to measure perception changes. Experiments demonstrate that the sentiment perception of NMT systems’ output sequences can be changed significantly.

arxiv情報

著者 Vyas Raina,Mark Gales
発行日 2023-05-02 14:06:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL パーマリンク