MuSaRoNews: A Multidomain, Multimodal Satire Dataset from Romanian News Articles

要約

風刺と偽のニュースは、どちらも異なる目的を持っているにもかかわらず、誤った情報の広がりに貢献できます(1つは娯楽の場合、もう1つは誤った情報を提供することです)。
ただし、表面の意味とニュース記事の実際の意味の間の不一致を検出するために純粋にテキストに頼るだけでは十分ではありません。多くの場合、他の情報源(視覚など)は風刺検出の重要な手がかりを提供します。
この作品は、Musaronewsという名前のルーマニアのニュース記事で風刺検出のためのマルチモーダルコーパスを紹介します。
具体的には、ルーマニア語で風刺検出のための最初のマルチモーダルコーパスを作成した、実際の風刺的なニュースソースから117,834のパブリックニュース記事を集めました。
実験を実施し、両方のモダリティを使用するとパフォーマンスが向上することを示しました。

要約(オリジナル)

Satire and fake news can both contribute to the spread of false information, even though both have different purposes (one if for amusement, the other is to misinform). However, it is not enough to rely purely on text to detect the incongruity between the surface meaning and the actual meaning of the news articles, and, often, other sources of information (e.g., visual) provide an important clue for satire detection. This work introduces a multimodal corpus for satire detection in Romanian news articles named MuSaRoNews. Specifically, we gathered 117,834 public news articles from real and satirical news sources, composing the first multimodal corpus for satire detection in the Romanian language. We conducted experiments and showed that the use of both modalities improves performance.

arxiv情報

著者 Răzvan-Alexandru Smădu,Andreea Iuga,Dumitru-Clementin Cercel
発行日 2025-04-10 15:02:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク