Enhancing Data Quality through Simple De-duplication: Navigating Responsible Computational Social Science Research

要約

計算社会科学(CSS)のための自然言語処理(NLP)の研究は、ソーシャルメディア・プラットフォームからのデータに大きく依存している。このデータは、オンラインコミュニティ内の社会言語現象を分析するモデルの開発において重要な役割を果たしている。本研究では、CSSのためのNLPで広く使用されている20のデータセットを詳細に調査し、データの品質を包括的に検証する。我々の分析により、ソーシャルメディアのデータセットには様々なレベルのデータの重複があることが明らかになった。その結果、ラベルの不整合やデータの漏洩といった課題が生じ、モデルの信頼性を損なう。また、我々の知見は、データの重複が、現在主張されている最先端の性能に影響を与え、実世界のシナリオにおけるモデルの有効性を過大評価する可能性があることを示唆している。最後に、ソーシャルメディアデータからのデータセット開発とその利用を改善するための新しいプロトコルとベストプラクティスを提案する。

要約(オリジナル)

Research in natural language processing (NLP) for Computational Social Science (CSS) heavily relies on data from social media platforms. This data plays a crucial role in the development of models for analysing socio-linguistic phenomena within online communities. In this work, we conduct an in-depth examination of 20 datasets extensively used in NLP for CSS to comprehensively examine data quality. Our analysis reveals that social media datasets exhibit varying levels of data duplication. Consequently, this gives rise to challenges like label inconsistencies and data leakage, compromising the reliability of models. Our findings also suggest that data duplication has an impact on the current claims of state-of-the-art performance, potentially leading to an overestimation of model effectiveness in real-world scenarios. Finally, we propose new protocols and best practices for improving dataset development from social media data and its usage.

arxiv情報

著者 Yida Mu,Mali Jin,Xingyi Song,Nikolaos Aletras
発行日 2024-10-04 15:58:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク