要約
テキスト分類システムは、長年にわたってパフォーマンスが向上し続けています。
ただし、現在のほぼすべての SOTA 分類器には、テキストを水平方向に処理するという同様の欠点があります。
縦書きの単語は分類子によって認識されません。
対照的に、人間は横書きと縦書きの両方で書かれた単語を容易に認識して読むことができます。
したがって、人間の敵対者は問題のある単語を縦書きで書くことができ、その意味は他の人間にとっても保持されることになります。
私たちはそのような攻撃、Vert Attack をシミュレートします。
Vert Attack は、分類子がどの単語に依存しているかを特定し、それらの単語を垂直方向に書き換えます。
Vert Attack は、5 つのデータセット上の 4 つの異なるトランスフォーマー モデルの精度を大幅に低下させる可能性があることがわかりました。
たとえば、SST2 データセットでは、Vert Attack は RoBERTa の精度を 94% から 13% に下げることができます。
さらに、Vert Attack は単語を置き換えないため、意味が簡単に保持されます。
これを人体研究で検証したところ、クラウドワーカーは元のテキストの 81% と比較して、摂動されたテキストの 77% に摂動のラベルを正しく付けることができることがわかりました。
Vert Attack は、人間が将来どのように分類子を回避するかについての考察を提供し、より堅牢なアルゴリズムへの考察を促すものであると私たちは信じています。
要約(オリジナル)
Text classification systems have continuously improved in performance over the years. However, nearly all current SOTA classifiers have a similar shortcoming, they process text in a horizontal manner. Vertically written words will not be recognized by a classifier. In contrast, humans are easily able to recognize and read words written both horizontally and vertically. Hence, a human adversary could write problematic words vertically and the meaning would still be preserved to other humans. We simulate such an attack, VertAttack. VertAttack identifies which words a classifier is reliant on and then rewrites those words vertically. We find that VertAttack is able to greatly drop the accuracy of 4 different transformer models on 5 datasets. For example, on the SST2 dataset, VertAttack is able to drop RoBERTa’s accuracy from 94 to 13%. Furthermore, since VertAttack does not replace the word, meaning is easily preserved. We verify this via a human study and find that crowdworkers are able to correctly label 77% perturbed texts perturbed, compared to 81% of the original texts. We believe VertAttack offers a look into how humans might circumvent classifiers in the future and thus inspire a look into more robust algorithms.
arxiv情報
著者 | Jonathan Rusert |
発行日 | 2024-04-12 15:32:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google