BODEGA: Benchmark for Adversarial Example Generation in Credibility Assessment

要約

フェイクニュース、ソーシャルメディアボット、プロパガンダなど、信頼性の低いコンテンツを検出する方法として、テキスト分類方法が広く調査されています。非常に正確なモデル (ディープ ニューラル ネットワークに基づく可能性が高い) は、公共の電子プラットフォームのモデレートに役立ち、多くの場合、コンテンツ作成者を引き起こします。
彼らの提出物の拒否またはすでに出版されたテキストの削除に直面すること。
さらなる検出を回避するインセンティブを持つコンテンツ作成者は、分類器の弱点を悪用して異なる出力をもたらす、テキストのわずかに変更されたバージョン (敵対的な例を使用した攻撃として知られている) を考え出そうとします。
ここでは、BODEGA を紹介します。これは、コンテンツ モデレーションの実際の使用例をシミュレートするように設計された評価フレームワークで、4 つの偽情報検出タスクで被害者モデルと攻撃方法の両方をテストするためのベンチマークです。
また、利用可能な攻撃手法に対する一般的なテキスト分類器の堅牢性を体系的にテストし、実際、場合によっては、入力テキストのわずかな変更がモデルを誤解させる可能性があることを発見しました.
この分野でのさらなる研究の比較可能性と複製可能性を高めることを期待して、BODEGA コードとデータをオープンに共有します。

要約(オリジナル)

Text classification methods have been widely investigated as a way to detect content of low credibility: fake news, social media bots, propaganda, etc. Quite accurate models (likely based on deep neural networks) help in moderating public electronic platforms and often cause content creators to face rejection of their submissions or removal of already published texts. Having the incentive to evade further detection, content creators try to come up with a slightly modified version of the text (known as an attack with an adversarial example) that exploit the weaknesses of classifiers and result in a different output. Here we introduce BODEGA: a benchmark for testing both victim models and attack methods on four misinformation detection tasks in an evaluation framework designed to simulate real use-cases of content moderation. We also systematically test the robustness of popular text classifiers against available attacking techniques and discover that, indeed, in some cases barely significant changes in input text can mislead the models. We openly share the BODEGA code and data in hope of enhancing the comparability and replicability of further research in this area.

arxiv情報

著者 Piotr Przybyła,Alexander Shvets,Horacio Saggion
発行日 2023-03-14 16:11:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク