要約
大規模な言語モデルの使用例が多様化する中、テキストをより有益に扱うことが必要であると考えられる。議論的な分析は、チャットボット、テキスト補完機構、その他のアプリケーションをより合理的に使用することを促進することができる。しかし、どのような論証の側面を確実に識別し、言語モデルに統合することができるかは不明である。本論文では、ソーシャルメディア上のヘイトスピーチにおいて、異なる論証の側面を自動的に識別することができる信頼性の実証的評価を示す。我々は、Wagemans (2016) のPeriodic Table of Argumentsから適応した、いくつかの議論的要素の手動アノテーションでHatevalコーパス (Basile et al. 2019) を豊かにした。我々は、いくつかの構成要素が合理的な信頼性で識別できることを示す。高いエラー比率を示すものについては、専門家アノテーター間の不一致と自動手順のエラーのパターンを分析し、より確実に再現できるそれらのカテゴリの適応を提案する。
要約(オリジナル)
With the increasing diversity of use cases of large language models, a more informative treatment of texts seems necessary. An argumentative analysis could foster a more reasoned usage of chatbots, text completion mechanisms or other applications. However, it is unclear which aspects of argumentation can be reliably identified and integrated in language models. In this paper, we present an empirical assessment of the reliability with which different argumentative aspects can be automatically identified in hate speech in social media. We have enriched the Hateval corpus (Basile et al. 2019) with a manual annotation of some argumentative components, adapted from Wagemans (2016)’s Periodic Table of Arguments. We show that some components can be identified with reasonable reliability. For those that present a high error ratio, we analyze the patterns of disagreement between expert annotators and errors in automatic procedures, and we propose adaptations of those categories that can be more reliably reproduced.
arxiv情報
| 著者 | Damián Furman,Pablo Torres,José A. Rodríguez,Diego Letzen,Vanina Martínez,Laura Alonso Alemany |
| 発行日 | 2023-06-05 15:50:57+00:00 |
| arxivサイト | arxiv_id(pdf) |