HQP: A Human-Annotated Dataset for Detecting Online Propaganda

要約

【タイトル】オンラインプロパガンダの検出のための人間による注釈付きデータセットHQP
【要約】
– オンラインプロパガンダは社会の誠実性に深刻な脅威をもたらす。
– オンラインプロパガンダを検出するための既存のデータセットには、ノイズや誤りが含まれる弱いラベルを使用して注釈が付けられているという重要な制限がある。
– この制限を解決するために、以下の貢献を行う。
– 人間による注釈を用いたオンラインプロパガンダの検出に向けた、高品質なラベルを備えた新しいデータセットHQPを提案。
– 弱いラベルで訓練した最新の言語モデルはオンラインプロパガンダの検出に失敗することを実証し、高品質なラベルで訓練した場合は44%以上の改善が見られることを示す。
– ラベル付けのコストに対処するため、短い時間で高品質のラベルを使用して学習を行うことができるfew-shot learningを拡張することを提案。
– 高品質のラベルが感度の高いNLPタスク(プロパガンダ検出など)で重要であることを示し、NLPコミュニティにラベル付けのコストと品質のバランスをとることの重要性を指摘する。

要約(オリジナル)

Online propaganda poses a severe threat to the integrity of societies. However, existing datasets for detecting online propaganda have a key limitation: they were annotated using weak labels that can be noisy and even incorrect. To address this limitation, our work makes the following contributions: (1) We present HQP: a novel dataset (N=30,000) for detecting online propaganda with high-quality labels. To the best of our knowledge, HQP is the first dataset for detecting online propaganda that was created through human annotation. (2) We show empirically that state-of-the-art language models fail in detecting online propaganda when trained with weak labels (AUC: 64.03). In contrast, state-of-the-art language models can accurately detect online propaganda when trained with our high-quality labels (AUC: 92.25), which is an improvement of ~44%. (3) To address the cost of labeling, we extend our work to few-shot learning. Specifically, we show that prompt-based learning using a small sample of high-quality labels can still achieve a reasonable performance (AUC: 80.27). Finally, we discuss implications for the NLP community to balance the cost and quality of labeling. Crucially, our work highlights the importance of high-quality labels for sensitive NLP tasks such as propaganda detection.

arxiv情報

著者 Abdurahman Maarouf,Dominik Bär,Dominique Geissler,Stefan Feuerriegel
発行日 2023-05-01 08:29:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク