Fact-Saboteurs: A Taxonomy of Evidence Manipulation Attacks against Fact-Verification Systems

要約

誤った情報や偽情報は、私たちのセキュリティと安全に対する世界的な重大な脅威です。
オンラインの誤った情報の規模に対処するために、研究者たちは、関連する証拠を取得して照合することで事実確認を自動化することに取り組んできました。
しかし、多くの進歩にもかかわらず、そのようなシステムに対する考えられる攻撃ベクトルの包括的な評価はまだ不足しています。
特に、自動化された事実検証プロセスは、それが対抗しようとしているまさに偽情報キャンペーンに対して脆弱になる可能性があります。
この研究では、関連する証拠を偽装したり、誤解を招く証拠を植え付けたりすることで事実確認モデルを混乱させるために、オンラインの証拠を自動的に改ざんする敵を想定しています。
私たちはまず、これら 2 つのターゲットとさまざまな脅威モデルの側面にわたる探索的な分類法を提案します。
これに基づいて、私たちはいくつかの潜在的な攻撃方法を設計し、提案します。
私たちは、証拠内の主張の顕著な断片を微妙に変更し、主張に沿った多様な証拠を生成することが可能であることを示します。
したがって、分類の次元がさまざまに変更されると、ファクトチェックのパフォーマンスが大幅に低下します。
この攻撃は、クレームの事後変更に対しても強力です。
私たちの分析は、矛盾する証拠に直面した場合のモデルの推論における潜在的な限界をさらに示唆しています。
私たちは、これらの攻撃がそのようなモデルの検査可能で人間参加型の使用シナリオに有害な影響を与える可能性があることを強調し、将来の防御の課題と方向性について議論して結論とします。

要約(オリジナル)

Mis- and disinformation are a substantial global threat to our security and safety. To cope with the scale of online misinformation, researchers have been working on automating fact-checking by retrieving and verifying against relevant evidence. However, despite many advances, a comprehensive evaluation of the possible attack vectors against such systems is still lacking. Particularly, the automated fact-verification process might be vulnerable to the exact disinformation campaigns it is trying to combat. In this work, we assume an adversary that automatically tampers with the online evidence in order to disrupt the fact-checking model via camouflaging the relevant evidence or planting a misleading one. We first propose an exploratory taxonomy that spans these two targets and the different threat model dimensions. Guided by this, we design and propose several potential attack methods. We show that it is possible to subtly modify claim-salient snippets in the evidence and generate diverse and claim-aligned evidence. Thus, we highly degrade the fact-checking performance under many different permutations of the taxonomy’s dimensions. The attacks are also robust against post-hoc modifications of the claim. Our analysis further hints at potential limitations in models’ inference when faced with contradicting evidence. We emphasize that these attacks can have harmful implications on the inspectable and human-in-the-loop usage scenarios of such models, and we conclude by discussing challenges and directions for future defenses.

arxiv情報

著者 Sahar Abdelnabi,Mario Fritz
発行日 2023-06-16 11:33:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.CY, cs.LG パーマリンク