要約
風刺の検出は、テキスト データから意見を正確に抽出し、オンラインの誤った情報と戦うために不可欠です。
ただし、風刺のための多様なコーパスが不足しているため、モデルの検出パフォーマンスに影響を与える文体の偏りの問題が発生します。
この研究では、生成的な大規模言語モデルを利用してトレーニング データのバイアスを軽減することに焦点を当てた、風刺検出のためのバイアス除去アプローチを提案します。
このアプローチは、クロスドメイン (皮肉検出) 設定とクロス言語 (英語) 設定の両方で評価されます。
結果は、バイアス除去手法により、トルコ語と英語における風刺と皮肉の検出タスクのモデルの堅牢性と一般化可能性が向上することが示されました。
ただし、Llama-3.1 などの因果言語モデルへの影響は限定的です。
さらに、この研究では、分類、偏りの解消、説明可能性に関するケーススタディとともに、詳細な人による注釈を付けてトルコ風刺ニュース データセットを厳選し、提示しています。
要約(オリジナル)
Satire detection is essential for accurately extracting opinions from textual data and combating misinformation online. However, the lack of diverse corpora for satire leads to the problem of stylistic bias which impacts the models’ detection performances. This study proposes a debiasing approach for satire detection, focusing on reducing biases in training data by utilizing generative large language models. The approach is evaluated in both cross-domain (irony detection) and cross-lingual (English) settings. Results show that the debiasing method enhances the robustness and generalizability of the models for satire and irony detection tasks in Turkish and English. However, its impact on causal language models, such as Llama-3.1, is limited. Additionally, this work curates and presents the Turkish Satirical News Dataset with detailed human annotations, with case studies on classification, debiasing, and explainability.
arxiv情報
著者 | Asli Umay Ozturk,Recep Firat Cekinel,Asli Umay Ozturk |
発行日 | 2024-12-12 12:57:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google