要約
NLP における敵対的攻撃の多くは、入力を混乱させて視覚的に類似した文字列 (‘ergo’ $\rightarrow$ ‘$\epsilon$rgo’) を生成しますが、これは人間には判読可能ですが、モデルのパフォーマンスが低下します。
読みやすさを維持することはテキストの摂動の必要条件ですが、それを体系的に特徴付ける作業はほとんど行われていません。
代わりに、可読性は通常、摂動の性質と範囲に関する直感によって大まかに強制されます。
特に、読みやすさを維持しながら入力をどの程度摂動できるか、または摂動された文字列の読みやすさをどのように定量化するかは不明です。
この作業では、乱れた文字列の読みやすさを予測するモデルを学習し、読みやすさに基づいて候補の摂動をランク付けすることで、このギャップに対処します。
そのために、\dataset を収集して公開します。これは、視覚的に乱されたテキストの読みやすさを構成する、人間が注釈を付けたデータセットです。
このデータセットを使用して、入力が読みやすいかどうかを予測する際に最大 0.91 ドルの F1 スコアを達成し、与えられた 2 つの摂動のうちどちらがより読みやすいかを予測する際に 0.86 ドルの精度を達成する、テキストベースとビジョンベースの両方のモデルを構築します。
さらに、\dataset データセットからの判読可能な摂動は、最もよく知られている攻撃戦略よりも NLP モデルのパフォーマンスを低下させるのに効果的であることを発見しました。これは、現在のモデルが、既存の視覚的攻撃によってキャプチャされるものを超えた幅広い摂動に対して脆弱である可能性があることを示唆しています。
.
データ、コード、およびモデルは、https://github.com/dvsth/learning-legibility-2023 で入手できます。
要約(オリジナル)
Many adversarial attacks in NLP perturb inputs to produce visually similar strings (‘ergo’ $\rightarrow$ ‘$\epsilon$rgo’) which are legible to humans but degrade model performance. Although preserving legibility is a necessary condition for text perturbation, little work has been done to systematically characterize it; instead, legibility is typically loosely enforced via intuitions around the nature and extent of perturbations. Particularly, it is unclear to what extent can inputs be perturbed while preserving legibility, or how to quantify the legibility of a perturbed string. In this work, we address this gap by learning models that predict the legibility of a perturbed string, and rank candidate perturbations based on their legibility. To do so, we collect and release \dataset, a human-annotated dataset comprising the legibility of visually perturbed text. Using this dataset, we build both text- and vision-based models which achieve up to $0.91$ F1 score in predicting whether an input is legible, and an accuracy of $0.86$ in predicting which of two given perturbations is more legible. Additionally, we discover that legible perturbations from the \dataset dataset are more effective at lowering the performance of NLP models than best-known attack strategies, suggesting that current models may be vulnerable to a broad range of perturbations beyond what is captured by existing visual attacks. Data, code, and models are available at https://github.com/dvsth/learning-legibility-2023.
arxiv情報
著者 | Dev Seth,Rickard Stureborg,Danish Pruthi,Bhuwan Dhingra |
発行日 | 2023-03-09 07:22:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google