MultiProSE: A Multi-label Arabic Dataset for Propaganda, Sentiment, and Emotion Detection

要約

プロパガンダは、決定された目的のための修辞的および心理的説得技術を通じて人々の意見に影響を与えるという意図的な目標を持って、歴史を通じて使用された説得の一形態です。
アラビア語はインターネット上で4番目に使用されている言語としてランク付けされていましたが、英語以外の言語でのプロパガンダ検出のためのリソース、特にアラビア語は非常に限られたままです。
このギャップに対処するために、マルチラベルプロパガンダ、感情、および感情(マルチプローズ)の最初のアラビア語データセットが導入されました。
MultiProseは、各テキストに感情と感情の注釈が追加された、既存のアラビア語のプロパガンダデータセットArproのオープンソース拡張です。
このデータセットは、これまでで最大のプロパガンダデータセットである8,000の注釈付きニュース記事で構成されています。
各タスクについて、GPT-4O-MINIなどの大規模な言語モデル(LLM)と、3つのBERTベースのモデルを含む事前訓練を受けた言語モデル(PLM)を使用していくつかのベースラインが開発されています。
データセット、注釈ガイドライン、およびソースコードはすべて公開されており、アラビア語モデルの将来の研究開発を促進し、ニュースメディアでさまざまな意見の側面がどのように相互作用するかについてのより深い理解に貢献しています。

要約(オリジナル)

Propaganda is a form of persuasion that has been used throughout history with the intention goal of influencing people’s opinions through rhetorical and psychological persuasion techniques for determined ends. Although Arabic ranked as the fourth most- used language on the internet, resources for propaganda detection in languages other than English, especially Arabic, remain extremely limited. To address this gap, the first Arabic dataset for Multi-label Propaganda, Sentiment, and Emotion (MultiProSE) has been introduced. MultiProSE is an open-source extension of the existing Arabic propaganda dataset, ArPro, with the addition of sentiment and emotion annotations for each text. This dataset comprises 8,000 annotated news articles, which is the largest propaganda dataset to date. For each task, several baselines have been developed using large language models (LLMs), such as GPT-4o-mini, and pre-trained language models (PLMs), including three BERT-based models. The dataset, annotation guidelines, and source code are all publicly released to facilitate future research and development in Arabic language models and contribute to a deeper understanding of how various opinion dimensions interact in news media1.

arxiv情報

著者 Lubna Al-Henaki,Hend Al-Khalifa,Abdulmalik Al-Salman,Hajar Alqubayshi,Hind Al-Twailay,Gheeda Alghamdi,Hawra Aljasim
発行日 2025-02-12 11:35:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク