OpenFact at CheckThat! 2024: Combining Multiple Attack Methods for Effective Adversarial Text Generation

要約

この文書では、CheckThat! の実験と結果を紹介します。
CLEF 2024 のラボ タスク 6: 敵対的な例による信頼性評価の堅牢性 (InCrediblAE)。
このタスクの主な目的は、広く使用されているテキスト分類手法 (微調整された BERT、BiLSTM、および RoBERTa) を信頼性評価問題に適用した場合の堅牢性を評価するために、5 つの問題領域で敵対的な例を生成することでした。
この研究では、自然言語処理 (NLP) モデルに対する敵対的攻撃を強化するためのアンサンブル学習の応用について調査します。
私たちは、さまざまな誤報タスクにわたる 5 つのデータセットに対して、BERT 攻撃、遺伝的アルゴリズム、TextFooler、CLARE などのいくつかの敵対的攻撃手法を体系的にテストし、改良しました。
BERT 攻撃の修正バージョンとハイブリッド手法を開発することで、攻撃の有効性が大幅に向上しました。
私たちの結果は、より高度で効果的な敵対的攻撃戦略を作成するための修正と複数の方法の組み合わせの可能性を示し、より堅牢で安全なシステムの開発に貢献します。

要約(オリジナル)

This paper presents the experiments and results for the CheckThat! Lab at CLEF 2024 Task 6: Robustness of Credibility Assessment with Adversarial Examples (InCrediblAE). The primary objective of this task was to generate adversarial examples in five problem domains in order to evaluate the robustness of widely used text classification methods (fine-tuned BERT, BiLSTM, and RoBERTa) when applied to credibility assessment issues. This study explores the application of ensemble learning to enhance adversarial attacks on natural language processing (NLP) models. We systematically tested and refined several adversarial attack methods, including BERT-Attack, Genetic algorithms, TextFooler, and CLARE, on five datasets across various misinformation tasks. By developing modified versions of BERT-Attack and hybrid methods, we achieved significant improvements in attack effectiveness. Our results demonstrate the potential of modification and combining multiple methods to create more sophisticated and effective adversarial attack strategies, contributing to the development of more robust and secure systems.

arxiv情報

著者 Włodzimierz Lewoniewski,Piotr Stolarski,Milena Stróżyna,Elzbieta Lewańska,Aleksandra Wojewoda,Ewelina Księżniak,Marcin Sawiński
発行日 2024-09-04 12:26:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク