要約
Computational Social Science(CSS)は、研究者向けの人間で生成されたコンテンツの前例のない入手可能性によって推進される新興分野です。
ただし、この分野は、非常に主観的なタスクや複雑で非構造化されていないテキストコーパスなど、それが探求する理論とデータセットの性質により、独自の課題セットを提示します。
これらの課題の中で、あまりよく研究されていないトピックの1つは、ノイズの広範な存在です。
この論文の目的は、CSSの異なる騒音を調べる一連の相互接続されたケーススタディを提示することにより、文献のこのギャップに対処することを目的としています。
これらには、履歴記録のOCR処理、古風な言語、主観的および曖昧なタスクの注釈の矛盾、およびコンテンツ生成中に大規模な言語モデルによって導入された騒音やバイアスに続く文字レベルのエラーが含まれます。
この論文は、CSSのノイズが本質的に有害または役に立たないという従来の概念に挑戦しています。
むしろ、特定の形態のノイズは、個人のユニークなコミュニケーションスタイルやデータセットやタスクの文化依存性の性質など、CSS研究を進めるために非常に貴重な意味のある情報をエンコードできると主張しています。
さらに、この論文は、ノイズに対処する際のニュアンスの重要性と、CSS研究者がそれに遭遇したときに対処しなければならない考慮事項を強調し、異なるタイプのノイズに明確な戦略が必要であることを示しています。
要約(オリジナル)
Computational Social Science (CSS) is an emerging field driven by the unprecedented availability of human-generated content for researchers. This field, however, presents a unique set of challenges due to the nature of the theories and datasets it explores, including highly subjective tasks and complex, unstructured textual corpora. Among these challenges, one of the less well-studied topics is the pervasive presence of noise. This thesis aims to address this gap in the literature by presenting a series of interconnected case studies that examine different manifestations of noise in CSS. These include character-level errors following the OCR processing of historical records, archaic language, inconsistencies in annotations for subjective and ambiguous tasks, and even noise and biases introduced by large language models during content generation. This thesis challenges the conventional notion that noise in CSS is inherently harmful or useless. Rather, it argues that certain forms of noise can encode meaningful information that is invaluable for advancing CSS research, such as the unique communication styles of individuals or the culture-dependent nature of datasets and tasks. Further, this thesis highlights the importance of nuance in dealing with noise and the considerations CSS researchers must address when encountering it, demonstrating that different types of noise require distinct strategies.
arxiv情報
著者 | Nadav Borenstein |
発行日 | 2025-03-10 14:42:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google