要約
テキスト敵対的攻撃とは、攻撃者が精巧な設計によって原文に知覚できない摂動を加え、NLP(自然言語処理)モデルが誤った判断をするように仕向ける攻撃手法を指す。この手法は、自然言語処理モデルの頑健性を評価するためにも用いられる。現在、この分野の研究のほとんどは英語に焦点を当てており、中国語についても一定の研究がある。しかし、私たちの知る限り、中国の少数言語を対象とした研究はほとんどありません。テキスト敵対的攻撃は、中国語少数言語の情報処理にとって新たな課題である。このような状況に対応するため、我々は音節余弦距離とスコアリングメカニズムに基づいたTSAttackerと呼ばれるチベット語の音節レベルのブラックボックステキスト敵対的攻撃を提案する。そして、2つのPLM(事前学習済み言語モデル)を微調整して生成した6つのモデルを用いて、3つの下流タスクに対するTSAttackerを実施する。実験の結果、TSAttackerは有効であり、高品質な敵対サンプルを生成することがわかった。また、関係するモデルの頑健性にはまだ改善の余地がある。
要約(オリジナル)
The textual adversarial attack refers to an attack method in which the attacker adds imperceptible perturbations to the original texts by elaborate design so that the NLP (natural language processing) model produces false judgments. This method is also used to evaluate the robustness of NLP models. Currently, most of the research in this field focuses on English, and there is also a certain amount of research on Chinese. However, to the best of our knowledge, there is little research targeting Chinese minority languages. Textual adversarial attacks are a new challenge for the information processing of Chinese minority languages. In response to this situation, we propose a Tibetan syllable-level black-box textual adversarial attack called TSAttacker based on syllable cosine distance and scoring mechanism. And then, we conduct TSAttacker on six models generated by fine-tuning two PLMs (pre-trained language models) for three downstream tasks. The experiment results show that TSAttacker is effective and generates high-quality adversarial samples. In addition, the robustness of the involved models still has much room for improvement.
arxiv情報
著者 | Xi Cao,Dolma Dawa,Nuo Qun,Trashi Nyima |
発行日 | 2024-12-03 09:38:22+00:00 |
arxivサイト | arxiv_id(pdf) |