要約
テキスト分類方法は、フェイク ニュース、ソーシャル メディア ボット、プロパガンダなど、信頼性の低いコンテンツを検出する方法として広く研究されています。非常に正確なモデル (ディープ ニューラル ネットワークに基づいていると考えられます) は、公共の電子プラットフォームの管理に役立ち、コンテンツ作成者の迷惑になることがよくあります。
投稿の拒否またはすでに公開されたテキストの削除に直面することになります。
コンテンツ作成者は、さらなる検出を回避する動機を持って、分類子の弱点を突いて異なる出力をもたらす、テキストのわずかに変更されたバージョン (敵対的な例による攻撃として知られています) を考え出そうとします。
ここでは、利用可能な攻撃手法に対する一般的なテキスト分類子の堅牢性を体系的にテストし、実際に、入力テキストの意味を保持する変更がモデルを誤解させる可能性があることを発見しました。
私たちがテストするアプローチは、元のコンテンツと置換後のコンテンツの類似性を考慮して、テキスト内の脆弱な部分を見つけて個々の文字や単語を置換することに重点を置いています。
また、BODEGA も紹介します。BODEGA は、コンテンツモデレーションの実際のユースケースをシミュレートするように設計された評価フレームワークで、4 つの誤情報検出タスクで被害者モデルと攻撃手法の両方をテストするためのベンチマークです。
攻撃された任務には、(1) 事実確認と(2) 超党派的なニュース、(3) プロパガンダ、(4) 噂の検出が含まれる。
私たちの実験結果は、現代の大規模言語モデルは、以前の小規模なソリューションよりも攻撃に対して脆弱であることが多いことを示しています。
GEMMA に対する攻撃は、BERT に対する攻撃よりも最大 27\% 成功率が高くなります。
最後に、敵対的な例のサブセットを手動で分析し、成功した攻撃でどのような種類の変更が使用されているかを確認します。
要約(オリジナル)
Text classification methods have been widely investigated as a way to detect content of low credibility: fake news, social media bots, propaganda, etc. Quite accurate models (likely based on deep neural networks) help in moderating public electronic platforms and often cause content creators to face rejection of their submissions or removal of already published texts. Having the incentive to evade further detection, content creators try to come up with a slightly modified version of the text (known as an attack with an adversarial example) that exploit the weaknesses of classifiers and result in a different output. Here we systematically test the robustness of common text classifiers against available attacking techniques and discover that, indeed, meaning-preserving changes in input text can mislead the models. The approaches we test focus on finding vulnerable spans in text and replacing individual characters or words, taking into account the similarity between the original and replacement content. We also introduce BODEGA: a benchmark for testing both victim models and attack methods on four misinformation detection tasks in an evaluation framework designed to simulate real use-cases of content moderation. The attacked tasks include (1) fact checking and detection of (2) hyperpartisan news, (3) propaganda and (4) rumours. Our experimental results show that modern large language models are often more vulnerable to attacks than previous, smaller solutions, e.g. attacks on GEMMA being up to 27\% more successful than those on BERT. Finally, we manually analyse a subset adversarial examples and check what kinds of modifications are used in successful attacks.
arxiv情報
著者 | Piotr Przybyła,Alexander Shvets,Horacio Saggion |
発行日 | 2024-11-21 09:46:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google