要約
自然言語処理の最近の進歩により、敵対的攻撃に対する深層学習モデルの脆弱性が浮き彫りになりました。
さまざまな防御メカニズムが提案されていますが、さまざまなデータセット、モデル、タスクにわたってこれらの防御を評価する包括的なベンチマークが不足しています。
この研究では、以前の研究を大幅に拡張したテキスト敵対防御のための広範なベンチマークを提示することで、このギャップに対処します。
私たちのベンチマークには、幅広いデータセットが組み込まれており、最先端の防御メカニズムを評価し、単文の分類、類似性と言い換えの識別、自然言語推論、常識的推論などの重要なタスクを含むように評価を拡張しています。
この研究は、敵対的堅牢性の分野の研究者や実践者にとって貴重なリソースとして役立つだけでなく、テキストの敵対的防御における将来の研究のための重要な領域を特定します。
この分野でベンチマークの新しい標準を確立することで、より堅牢で信頼性の高い自然言語処理システムへの進歩を加速することを目指しています。
要約(オリジナル)
Recent advancements in natural language processing have highlighted the vulnerability of deep learning models to adversarial attacks. While various defence mechanisms have been proposed, there is a lack of comprehensive benchmarks that evaluate these defences across diverse datasets, models, and tasks. In this work, we address this gap by presenting an extensive benchmark for textual adversarial defence that significantly expands upon previous work. Our benchmark incorporates a wide range of datasets, evaluates state-of-the-art defence mechanisms, and extends the assessment to include critical tasks such as single-sentence classification, similarity and paraphrase identification, natural language inference, and commonsense reasoning. This work not only serves as a valuable resource for researchers and practitioners in the field of adversarial robustness but also identifies key areas for future research in textual adversarial defence. By establishing a new standard for benchmarking in this domain, we aim to accelerate progress towards more robust and reliable natural language processing systems.
arxiv情報
著者 | Yang Wang,Chenghua Lin |
発行日 | 2025-01-08 14:53:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google