Human-in-the-Loop Generation of Adversarial Texts: A Case Study on Tibetan Script

要約

DNNベースの言語モデルは、さまざまなタスクで優れたパフォーマンスを発揮しますが、SOTA LLMでさえテキストの敵対的な攻撃を受けやすいです。
敵対的なテキストは、NLPの複数のサブフィールドで重要な役割を果たします。
ただし、現在の研究には次の問題があります。
(1)ほとんどのテキストの敵対的攻撃方法は、豊富なリソース化された言語を対象としています。
あまり研究されていない言語の敵対的なテキストをどのように生成しますか?
(2)ほとんどのテキストの敵対的攻撃方法は、無効または曖昧な敵対的なテキストを生成する傾向があります。
高品質の敵対的堅牢性ベンチマークをどのように構築しますか?
(3)新しい言語モデルは、以前に生成された敵対的なテキストの一部に対して免疫がある場合があります。
敵対的な堅牢性ベンチマークをどのように更新しますか?
上記の問題に対処するために、ループ内の敵対的なテキストの一般的なアプローチに基づいたシステムであるHITL-GATを紹介します。
HITL-GATには、1つのパイプラインに4つの段階が含まれています。被害者モデルの構築、敵意の例生成、高品質のベンチマーク構造、敵対的な堅牢性評価です。
さらに、HITL-GATを利用して、他のあまり研究されていない言語の敵対的な研究の参照となるチベットスクリプトのケーススタディを作成します。

要約(オリジナル)

DNN-based language models perform excellently on various tasks, but even SOTA LLMs are susceptible to textual adversarial attacks. Adversarial texts play crucial roles in multiple subfields of NLP. However, current research has the following issues. (1) Most textual adversarial attack methods target rich-resourced languages. How do we generate adversarial texts for less-studied languages? (2) Most textual adversarial attack methods are prone to generating invalid or ambiguous adversarial texts. How do we construct high-quality adversarial robustness benchmarks? (3) New language models may be immune to part of previously generated adversarial texts. How do we update adversarial robustness benchmarks? To address the above issues, we introduce HITL-GAT, a system based on a general approach to human-in-the-loop generation of adversarial texts. HITL-GAT contains four stages in one pipeline: victim model construction, adversarial example generation, high-quality benchmark construction, and adversarial robustness evaluation. Additionally, we utilize HITL-GAT to make a case study on Tibetan script which can be a reference for the adversarial research of other less-studied languages.

arxiv情報

著者 Xi Cao,Yuan Sun,Jiajun Li,Quzong Gesang,Nuo Qun,Tashi Nyima
発行日 2025-03-21 09:32:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.HC パーマリンク