要約
オンライン プロパガンダは、社会の健全性に対して重大な脅威をもたらします。
ただし、オンライン プロパガンダを検出するための既存のデータセットには重要な制限があります。つまり、ノイズが多く、不正確になる可能性がある弱いラベルを使用してアノテーションが付けられているということです。
この制限に対処するために、私たちの研究は次のような貢献をしています。 (1) HQP を紹介します。高品質のラベルを使用してオンライン プロパガンダを検出するための新しいデータセット (N = 30,000)。
私たちの知る限り、HQP は人間によるアノテーションによって作成された、オンライン プロパガンダを検出するための最初の大規模なデータセットです。
(2) 我々は、最先端の言語モデルが弱いラベル (AUC: 64.03) でトレーニングされた場合、オンライン プロパガンダの検出に失敗することを経験的に示します。
対照的に、最先端の言語モデルは、当社の高品質ラベル (AUC: 92.25) でトレーニングされた場合、オンライン プロパガンダを正確に検出できます。これは、最大 44% の改善です。
(3) 高品質ラベルの少数のサンプルを使用したプロンプトベースの学習でも、ラベル付けのコストを大幅に削減しながら、妥当なパフォーマンス (AUC: 80.27) を達成できることを示します。
(4) HQP を HQP+ に拡張して、さまざまなコンテキストにわたるプロパガンダをどの程度検出できるかをテストします。
重要なのは、私たちの研究が、プロパガンダ検出などの機密性の高い NLP タスクにおける高品質ラベルの重要性を強調していることです。
要約(オリジナル)
Online propaganda poses a severe threat to the integrity of societies. However, existing datasets for detecting online propaganda have a key limitation: they were annotated using weak labels that can be noisy and even incorrect. To address this limitation, our work makes the following contributions: (1) We present HQP: a novel dataset (N = 30,000) for detecting online propaganda with high-quality labels. To the best of our knowledge, HQP is the first large-scale dataset for detecting online propaganda that was created through human annotation. (2) We show empirically that state-of-the-art language models fail in detecting online propaganda when trained with weak labels (AUC: 64.03). In contrast, state-of-the-art language models can accurately detect online propaganda when trained with our high-quality labels (AUC: 92.25), which is an improvement of ~44%. (3) We show that prompt-based learning using a small sample of high-quality labels can still achieve a reasonable performance (AUC: 80.27) while significantly reducing the cost of labeling. (4) We extend HQP to HQP+ to test how well propaganda across different contexts can be detected. Crucially, our work highlights the importance of high-quality labels for sensitive NLP tasks such as propaganda detection.
arxiv情報
著者 | Abdurahman Maarouf,Dominik Bär,Dominique Geissler,Stefan Feuerriegel |
発行日 | 2024-11-25 14:20:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google