CoCoLoFa: A Dataset of News Comments with Common Logical Fallacies Written by LLM-Assisted Crowds

要約

テキスト中の論理的誤謬を検出することは、ユーザが議論の欠陥を発見するのに役立つが、この検出を自動化することは容易ではない。大規模な実世界のテキストデータに手作業で誤謬をアノテーションし、検出モデルを開発・検証するためのデータセットを作成するのはコストがかかる。本論文では、648のニュース記事に対する7,706のコメントを含み、各コメントに誤謬の有無と種類をラベル付けした、既知のデータセットとしては最大規模のCoCoLoFaを紹介する。我々は143人のクラウドワーカーを募り、ニュース記事に対して特定の誤謬タイプ(例えば、slippery slope)を体現するコメントを書いてもらった。この執筆作業の複雑さを認識し、我々はLLMを搭載したアシスタントをワーカーのインターフェースに組み込み、コメントの下書きと推敲を支援した。専門家は、CoCoLoFaの文章品質とラベリングの妥当性を高く信頼できると評価した。CoCoLoFaを使用して微調整されたBERTベースのモデルは、テストセットで最高の誤謬検出(F1=0.86)と分類(F1=0.87)の性能を達成し、最先端のLLMを凌駕した。我々の研究は、クラウドソーシングとLLMを組み合わせることで、クラウドワーカーが独自に生成することが困難であると考える複雑な言語現象のデータセットを、より効果的に構築できることを示している。

要約(オリジナル)

Detecting logical fallacies in texts can help users spot argument flaws, but automating this detection is not easy. Manually annotating fallacies in large-scale, real-world text data to create datasets for developing and validating detection models is costly. This paper introduces CoCoLoFa, the largest known logical fallacy dataset, containing 7,706 comments for 648 news articles, with each comment labeled for fallacy presence and type. We recruited 143 crowd workers to write comments embodying specific fallacy types (e.g., slippery slope) in response to news articles. Recognizing the complexity of this writing task, we built an LLM-powered assistant into the workers’ interface to aid in drafting and refining their comments. Experts rated the writing quality and labeling validity of CoCoLoFa as high and reliable. BERT-based models fine-tuned using CoCoLoFa achieved the highest fallacy detection (F1=0.86) and classification (F1=0.87) performance on its test set, outperforming the state-of-the-art LLMs. Our work shows that combining crowdsourcing and LLMs enables us to more effectively construct datasets for complex linguistic phenomena that crowd workers find challenging to produce on their own.

arxiv情報

著者 Min-Hsuan Yeh,Ruyuan Wan,Ting-Hao ‘Kenneth’ Huang
発行日 2024-10-04 14:15:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク