Deceptive Humor: A Synthetic Multilingual Benchmark Dataset for Bridging Fabricated Claims with Humorous Content

要約

このペーパーでは、偽造された主張と誤報から派生したユーモアを研究するための新しいリソースである欺ceptiveユーモアデータセット(DHD)を紹介します。
ramp延する誤った情報の時代において、ユーモアが欺ceptionとどのように絡み合うかを理解することが不可欠です。
DHDは、誤った物語から生成されたユーモアを注入したコメントで構成されており、CHATGPT-4Oモデルを使用して、製造されたクレームと操作された情報を組み込んでいます。
各インスタンスには、微妙な風刺が1から高レベルの風刺の3までの範囲の風刺レベルでラベル付けされ、ダークユーモア、皮肉、社会的解説、言葉遊び、不条理の5つの異なるユーモアカテゴリに分類されます。
データセットは、英語、テルグ語、ヒンディー語、カンナダ、タミル語、およびコードミックスされたバリアント(Te-en、hi-en、ka-en、ta-en)を含む複数の言語に及び、価値のある多言語ベンチマークになります。
DHDを導入することにより、欺contexな文脈でユーモアを分析するための構造化された基盤を確立し、ユーモアが誤った情報と相互作用するだけでなく、その知覚と広がりにも影響する方法を探る新しい研究の方向への道を開いています。
提案されたデータセットの強力なベースラインを確立し、将来の研究の基盤を提供し、欺ceptiveユーモア検出モデルをベンチマークし、進歩させます。

要約(オリジナル)

This paper presents the Deceptive Humor Dataset (DHD), a novel resource for studying humor derived from fabricated claims and misinformation. In an era of rampant misinformation, understanding how humor intertwines with deception is essential. DHD consists of humor-infused comments generated from false narratives, incorporating fabricated claims and manipulated information using the ChatGPT-4o model. Each instance is labeled with a Satire Level, ranging from 1 for subtle satire to 3 for high-level satire and classified into five distinct Humor Categories: Dark Humor, Irony, Social Commentary, Wordplay, and Absurdity. The dataset spans multiple languages including English, Telugu, Hindi, Kannada, Tamil, and their code-mixed variants (Te-En, Hi-En, Ka-En, Ta-En), making it a valuable multilingual benchmark. By introducing DHD, we establish a structured foundation for analyzing humor in deceptive contexts, paving the way for a new research direction that explores how humor not only interacts with misinformation but also influences its perception and spread. We establish strong baselines for the proposed dataset, providing a foundation for future research to benchmark and advance deceptive humor detection models.

arxiv情報

著者 Sai Kartheek Reddy Kasu,Shankar Biradar,Sunil Saumya
発行日 2025-03-20 10:58:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク