Enabling Contextual Soft Moderation on Social Media through Contrastive Textual Deviation

要約

自動化されたソフト モデレーション システムは、投稿が虚偽の主張を支持しているのか反駁しているのかを確認することができないため、状況に応じた誤検知が大量に発生します。
これにより、その有効性が制限され、たとえば、投稿に警告を追加したり、詳細な事実確認の代わりに曖昧な警告に頼ったりすることで、健康専門家に対する信頼が損なわれ、その結果ユーザーの感覚が鈍くなります。
このペーパーでは、状況に応じた誤検知を排除し、警告を受ける必要があるソーシャル メディア コンテンツに対するより正確な推奨事項を提供することを目的として、既存の自動ソフト モデレーション パイプラインにスタンス検出を組み込むことを提案します。
私たちは、Contrastive Textual Deviation (CTD) と呼ばれるテキスト逸脱タスクを開発し、ソフト モデレーションに適用した場合に既存のスタンス検出アプローチよりも優れたパフォーマンスを発揮することを示します。次に、自動ソフト モデレーション Lambretta 用の最先端システムに CTD を統合し、私たちのアプローチが
コンテキスト上の誤検知を 20% から 2.1% に削減でき、信頼性の高い自動ソフト モデレーション ツールをソーシャル メディアに展開するためのもう 1 つの重要な構成要素を提供します。

要約(オリジナル)

Automated soft moderation systems are unable to ascertain if a post supports or refutes a false claim, resulting in a large number of contextual false positives. This limits their effectiveness, for example undermining trust in health experts by adding warnings to their posts or resorting to vague warnings instead of granular fact-checks, which result in desensitizing users. In this paper, we propose to incorporate stance detection into existing automated soft-moderation pipelines, with the goal of ruling out contextual false positives and providing more precise recommendations for social media content that should receive warnings. We develop a textual deviation task called Contrastive Textual Deviation (CTD) and show that it outperforms existing stance detection approaches when applied to soft moderation.We then integrate CTD into the stateof-the-art system for automated soft moderation Lambretta, showing that our approach can reduce contextual false positives from 20% to 2.1%, providing another important building block towards deploying reliable automated soft moderation tools on social media.

arxiv情報

著者 Pujan Paudel,Mohammad Hammas Saeed,Rebecca Auger,Chris Wells,Gianluca Stringhini
発行日 2024-07-30 15:37:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR パーマリンク