HQP: A Human-Annotated Dataset for Detecting Online Propaganda

要約

タイトル:HQP:オンラインプロパガンダを検知する人間注釈データセット

要約:

オンラインプロパガンダは、社会の誠実性に対して深刻な脅威をもたらしています。しかし、オンラインプロパガンダを検出するための既存のデータセットには、ノイズが含まれた弱いラベルで注釈が付けられているため、限界があります。この限界に対応するために、以下の貢献を行っています。

1. 高品質のラベルでオンラインプロパガンダを検出するためのノベルなデータセット(N=30,000)であるHQPを提供します。HQPは、人間の注釈を用いて作成された最初のオンラインプロパガンダを検出するデータセットである可能性があります。

2. 弱いラベルでトレーニングされた現行の最先端の言語モデルは、オンラインプロパガンダを検出する上で失敗することが示されています(AUC:64.03)。対照的に、高品質のラベルでトレーニングされた最先端の言語モデルは、オンラインプロパガンダを正確に検出できます(AUC:92.25)、約44%向上しています。

3. ラベリングのコストに対処するために、few-shot learningにも取り組んでいます。具体的には、高品質の少量のラベルを使用したプロンプトベースの学習を示し、まだ合理的なパフォーマンスを達成できることを示します(AUC:80.27)。最後に、ラベリングのコストと品質のバランスについて、NLPコミュニティに対して示唆します。重要なのは、我々の研究は、プロパガンダ検出などの重要なNLPタスクにおいて高品質のラベルの重要性を強調しています。

要約(オリジナル)

Online propaganda poses a severe threat to the integrity of societies. However, existing datasets for detecting online propaganda have a key limitation: they were annotated using weak labels that can be noisy and even incorrect. To address this limitation, our work makes the following contributions: (1) We present \dataset: a novel dataset (N=30,000) for detecting online propaganda with high-quality labels. To the best of our knowledge, \dataset is the first dataset for detecting online propaganda that was created through human annotation. (2) We show empirically that state-of-the-art language models fail in detecting online propaganda when trained with weak labels (AUC: 64.03). In contrast, state-of-the-art language models can accurately detect online propaganda when trained with our high-quality labels (AUC: 92.25), which is an improvement of ~44%. (3) To address the cost of labeling, we extend our work to few-shot learning. Specifically, we show that prompt-based learning using a small sample of high-quality labels can still achieve a reasonable performance (AUC: 80.27). Finally, we discuss implications for the NLP community to balance the cost and quality of labeling. Crucially, our work highlights the importance of high-quality labels for sensitive NLP tasks such as propaganda detection.

arxiv情報

著者 Abdurahman Maarouf,Dominik Bär,Dominique Geissler,Stefan Feuerriegel
発行日 2023-04-28 15:42:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク