The Parrot Dilemma: Human-Labeled vs. LLM-augmented Data in Classification Tasks

要約

計算社会科学(CSS)の領域では、実務家はしばしば複雑でリソースの少ない領域をナビゲートし、データの取得と注釈付けにかかる費用と時間のかかる課題に直面する。我々は、このような課題に対処するための一連のガイドラインを確立することを目的とし、様々な複雑さを持つ10の異なるCSS分類タスクにおいて、人間がラベル付けしたデータとGPT-4やLlama-2から合成的に生成したデータの使用を比較する。さらに、訓練データのサイズが性能に与える影響についても検証した。その結果、人間がラベル付けしたデータで訓練したモデルは、合成的に増強したモデルと比較して、一貫して優れているか同等の性能を示すことが明らかになった。それにもかかわらず、合成による増強は、特にマルチクラスタスク内の稀なクラスにおける性能の向上において有益であることが証明された。さらに、GPT-4とLlama-2をゼロショット分類に活用し、一般的に強力な性能を示すが、中程度の大きさの訓練セットで訓練された特殊な分類器と比較すると、しばしば不十分であることを発見した。

要約(オリジナル)

In the realm of Computational Social Science (CSS), practitioners often navigate complex, low-resource domains and face the costly and time-intensive challenges of acquiring and annotating data. We aim to establish a set of guidelines to address such challenges, comparing the use of human-labeled data with synthetically generated data from GPT-4 and Llama-2 in ten distinct CSS classification tasks of varying complexity. Additionally, we examine the impact of training data sizes on performance. Our findings reveal that models trained on human-labeled data consistently exhibit superior or comparable performance compared to their synthetically augmented counterparts. Nevertheless, synthetic augmentation proves beneficial, particularly in improving performance on rare classes within multi-class tasks. Furthermore, we leverage GPT-4 and Llama-2 for zero-shot classification and find that, while they generally display strong performance, they often fall short when compared to specialized classifiers trained on moderately sized training sets.

arxiv情報

著者 Anders Giovanni Møller,Jacob Aarup Dalsgaard,Arianna Pera,Luca Maria Aiello
発行日 2024-02-05 14:41:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CY, physics.soc-ph パーマリンク