要約
計算によるテキスト分類は、特に多次元の社会構造の場合、困難な作業です。
最近、合成トレーニング データが、これらの構成要素がテキスト内でどのように表現されるかの例を提供することで、分類を強化できる可能性があるという議論が増えています。
この論文では、社会構造の測定を改善するための理論主導の合成トレーニング データの可能性を系統的に検証します。
特に、調査尺度や注釈コードブックなどの社会科学の測定機器から確立された知識を、研究者が理論に基づいた合成データの生成にどのように移すことができるかを探ります。
性差別と政治的トピックの測定に関する 2 つの研究を使用して、テキスト分類モデルを微調整するための合成トレーニング データの付加価値を評価します。
性差別研究の結果はそれほど期待できるものではありませんでしたが、私たちの調査結果は、合成データが政治的トピック分類におけるラベル付きデータの必要性を減らすのに非常に効果的であることを示しています。
合成データは、パフォーマンスの低下を最小限に抑えながら、大量のラベル付きデータを置き換えることができます。
さらに、理論に基づいた合成データは、概念的な情報を考慮せずに生成されたデータよりも著しく優れたパフォーマンスを示しました。
要約(オリジナル)
Computational text classification is a challenging task, especially for multi-dimensional social constructs. Recently, there has been increasing discussion that synthetic training data could enhance classification by offering examples of how these constructs are represented in texts. In this paper, we systematically examine the potential of theory-driven synthetic training data for improving the measurement of social constructs. In particular, we explore how researchers can transfer established knowledge from measurement instruments in the social sciences, such as survey scales or annotation codebooks, into theory-driven generation of synthetic data. Using two studies on measuring sexism and political topics, we assess the added value of synthetic training data for fine-tuning text classification models. Although the results of the sexism study were less promising, our findings demonstrate that synthetic data can be highly effective in reducing the need for labeled data in political topic classification. With only a minimal drop in performance, synthetic data allows for substituting large amounts of labeled data. Furthermore, theory-driven synthetic data performed markedly better than data generated without conceptual information in mind.
arxiv情報
著者 | Lukas Birkenmaier,Matthias Roth,Indira Sen |
発行日 | 2024-10-17 08:28:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google