要約
ソーシャル・メディアでは、ニューラルネットワーク・モデルがヘイトスピーチの検出や感情分析などに応用されているが、ニューラルネットワーク・モデルは敵対的な攻撃を受けやすい。例えば、テキストの分類タスクでは、攻撃者はモデルを騙して異なる予測をさせるために、元のセマンティクスをほとんど変えないような摂動を元のテキストに精巧に導入する。テキスト敵対的攻撃手法を研究することで、言語モデルの頑健性を評価し、改善することができる。現在、この分野の研究のほとんどは英語に焦点を当てており、中国語についても一定の研究がある。しかし、中国の少数言語を対象とした研究はほとんどない。人工知能技術の急速な発展と中国少数言語モデルの出現により、テキスト敵対的攻撃は中国少数言語の情報処理にとって新たな課題となる。このような状況に対応するため、我々はTSTrickerと呼ばれるマスク言語モデルに基づく多分野チベット語テキスト敵対攻撃手法を提案する。我々は、置換候補音節や単語を生成するためにマスク言語モデルを利用し、置換順序を決定するためにスコアリング機構を採用し、その後、微調整された複数の被害者モデルに対して攻撃手法を実施する。実験の結果、TSTrickerは分類モデルの精度を28.70%以上低下させ、90.60%以上のサンプルの予測を変更させることがわかった。
要約(オリジナル)
In social media, neural network models have been applied to hate speech detection, sentiment analysis, etc., but neural network models are susceptible to adversarial attacks. For instance, in a text classification task, the attacker elaborately introduces perturbations to the original texts that hardly alter the original semantics in order to trick the model into making different predictions. By studying textual adversarial attack methods, the robustness of language models can be evaluated and then improved. Currently, most of the research in this field focuses on English, and there is also a certain amount of research on Chinese. However, there is little research targeting Chinese minority languages. With the rapid development of artificial intelligence technology and the emergence of Chinese minority language models, textual adversarial attacks become a new challenge for the information processing of Chinese minority languages. In response to this situation, we propose a multi-granularity Tibetan textual adversarial attack method based on masked language models called TSTricker. We utilize the masked language models to generate candidate substitution syllables or words, adopt the scoring mechanism to determine the substitution order, and then conduct the attack method on several fine-tuned victim models. The experimental results show that TSTricker reduces the accuracy of the classification models by more than 28.70% and makes the classification models change the predictions of more than 90.60% of the samples, which has an evidently higher attack effect than the baseline method.
arxiv情報
著者 | Xi Cao,Nuo Qun,Quzong Gesang,Yulei Zhu,Trashi Nyima |
発行日 | 2024-12-03 10:03:52+00:00 |
arxivサイト | arxiv_id(pdf) |