要約
ユーザーを操作したり誤解を与えたりすることを目的とした、プロパガンダの使用が主流メディアやソーシャル メディアで急増しています。
テキスト、ビジュアル、またはマルチモーダル コンテンツ内のプロパガンダ手法を自動的に検出する取り組みが増加していますが、そのほとんどは主に英語コンテンツに焦点を当てています。
中リソースから低リソースの言語を対象とした最近の取り組みの大部分は、偏った分布を持つ比較的小規模な注釈付きデータセットを生成し、洗練されたプロパガンダ検出モデルの開発に課題をもたらしました。
この課題に対処するために、私たちはこれまでで最大のプロパガンダ データセットである ArPro を慎重に開発しました。ArPro は新聞記事の 8K 段落で構成され、23 のプロパガンダ手法の分類に従ってテキスト スパン レベルでラベル付けされています。
さらに、私たちの研究は、テキストからのきめ細かいプロパガンダ検出のために、GPT-4 を使用して大規模言語モデル (LLM) のパフォーマンスを理解する最初の試みを提供します。
その結果、タスクが単に段落をプロパガンダ的か否かを分類することから、プロパガンダ手法とそのテキスト内での表現を検出するという粒度の細かいタスクに移行するにつれて、GPT-4 のパフォーマンスが低下することが示されました。
さまざまな分類粒度でのプロパガンダ検出のためにデータセットで微調整されたモデルと比較すると、GPT-4 は依然としてはるかに遅れています。
最後に、スパン検出のために他の 6 つの言語で構成されるデータセットで GPT-4 を評価しました。結果は、モデルが言語をまたいでタスクに苦労していることを示唆しています。
私たちのデータセットとリソースはコミュニティにリリースされます。
要約(オリジナル)
The use of propaganda has spiked on mainstream and social media, aiming to manipulate or mislead users. While efforts to automatically detect propaganda techniques in textual, visual, or multimodal content have increased, most of them primarily focus on English content. The majority of the recent initiatives targeting medium to low-resource languages produced relatively small annotated datasets, with a skewed distribution, posing challenges for the development of sophisticated propaganda detection models. To address this challenge, we carefully develop the largest propaganda dataset to date, ArPro, comprised of 8K paragraphs from newspaper articles, labeled at the text span level following a taxonomy of 23 propagandistic techniques. Furthermore, our work offers the first attempt to understand the performance of large language models (LLMs), using GPT-4, for fine-grained propaganda detection from text. Results showed that GPT-4’s performance degrades as the task moves from simply classifying a paragraph as propagandistic or not, to the fine-grained task of detecting propaganda techniques and their manifestation in text. Compared to models fine-tuned on the dataset for propaganda detection at different classification granularities, GPT-4 is still far behind. Finally, we evaluate GPT-4 on a dataset consisting of six other languages for span detection, and results suggest that the model struggles with the task across languages. Our dataset and resources will be released to the community.
arxiv情報
著者 | Maram Hasanain,Fatema Ahmed,Firoj Alam |
発行日 | 2024-02-27 13:02:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google