Large Language Models for Propaganda Span Annotation

要約

近年、オンラインの視聴者を操作することを目的として、オンライン コミュニケーションにおける宣伝手法の使用が増加しています。
このようなコンテンツを自動的に検出して誤りを暴くための取り組みが行われ、さまざまなモデリング シナリオに対応しています。
これらには、コンテンツ (テキスト、画像、またはマルチモーダル) が (i) プロパガンダ的であるかどうか、(ii) 1 つ以上の技術を使用しているか、(iii) 特定可能な範囲の技術が含まれているかどうかの判断が含まれます。
後者と比較して、最初の 2 つのシナリオには多大な研究努力が費やされています。
したがって、この研究では、宣伝的なテキストの範囲を検出するタスクに焦点を当てます。
GPT-4 などの大規模な言語モデルをアノテーターのタスクの実行に利用できるかどうかを調査します。
実験では、複数のアノテーターからのアノテーションで構成される社内開発のデータセットを使用しました。
私たちの結果は、プロンプトとしてより多くの情報をモデルに提供すると、人間による注釈と比較して、注釈の一致とパフォーマンスが向上することを示唆しています。
GPT-4 を含む複数のアノテーターによるアノテーション付きラベルをコミュニティで利用できるようにする予定です。

要約(オリジナル)

The use of propagandistic techniques in online communication has increased in recent years, aiming to manipulate online audiences. Efforts to automatically detect and debunk such content have been made, addressing various modeling scenarios. These include determining whether the content (text, image, or multimodal) (i) is propagandistic, (ii) employs one or more techniques, and (iii) includes techniques with identifiable spans. Significant research efforts have been devoted to the first two scenarios compared to the latter. Therefore, in this study, we focus on the task of detecting propagandistic textual spans. We investigate whether large language models such as GPT-4 can be utilized to perform the task of an annotator. For the experiments, we used an in-house developed dataset consisting of annotations from multiple annotators. Our results suggest that providing more information to the model as prompts improves the annotation agreement and performance compared to human annotations. We plan to make the annotated labels from multiple annotators, including GPT-4, available for the community.

arxiv情報

著者 Maram Hasanain,Fatema Ahmed,Firoj Alam
発行日 2023-11-16 11:37:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.CL, F.2.2 パーマリンク