Fine-grained Fallacy Detection with Human Label Variation

要約

複数のもっともらしい答えと自然な意見の不一致を取り入れる誤acy検出の最初のデータセットであるFainaを紹介します。
Fainaには、2人の専門家アノテーターによって与えられた移住、気候変動、および公衆衛生に関するイタリア語のソーシャルメディア投稿の20種類の誤りタイプにわたって重複する11k以上のスパンレベルの注釈が含まれています。
複数のラウンドでの議論を許可する広範な注釈研究を通じて、人間のラベルの変動の信号を保持しながら、注釈エラーを最小限に抑えます。
さらに、「単一のグラウンドトゥルース」評価を超えるフレームワークを考案し、同時に複数の(同様に信頼性の高い)テストセットとタスクの特性、つまり部分的なスパンマッチ、オーバーラップ、ラベル付け誤差のさまざまな重大度を考慮します。
4つの誤acy検出セットアップにわたる実験は、マルチタスクとマルチラベル変圧器ベースのアプローチがすべての設定にわたる強力なベースラインであることを示しています。
データ、コード、および注釈のガイドラインをリリースして、誤りの検出と人間のラベルのバリエーションに関する研究をより広く育成します。

要約(オリジナル)

We introduce Faina, the first dataset for fallacy detection that embraces multiple plausible answers and natural disagreement. Faina includes over 11K span-level annotations with overlaps across 20 fallacy types on social media posts in Italian about migration, climate change, and public health given by two expert annotators. Through an extensive annotation study that allowed discussion over multiple rounds, we minimize annotation errors whilst keeping signals of human label variation. Moreover, we devise a framework that goes beyond ‘single ground truth’ evaluation and simultaneously accounts for multiple (equally reliable) test sets and the peculiarities of the task, i.e., partial span matches, overlaps, and the varying severity of labeling errors. Our experiments across four fallacy detection setups show that multi-task and multi-label transformer-based approaches are strong baselines across all settings. We release our data, code, and annotation guidelines to foster research on fallacy detection and human label variation more broadly.

arxiv情報

著者 Alan Ramponi,Agnese Daffara,Sara Tonelli
発行日 2025-02-19 16:18:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク