The Promises and Pitfalls of LLM Annotations in Dataset Labeling: a Case Study on Media Bias Detection

要約

雇用やクラウドソーシングによるアノテーションのコストが高いため、信頼できるテキスト分類器のトレーニングに必要な大規模で高品質のデータセットの作成が困難になります。
最近の研究では、大規模言語モデル (LLM) を使用してアノテーション プロセスを自動化し、データ品質を維持しながらコストを削減することが提案されています。
LLM は、ヘイトスピーチ検出や政治的枠組みなどの下流タスクの注釈付けにおいて有望な結果を示しています。
これらの分野での成功に基づいて、この研究では、メディア バイアス検出の複雑なタスクに注釈を付けるために LLM が実行可能かどうか、また、そのようなデータに基づいて下流のメディア バイアス分類器をトレーニングできるかどうかを調査します。
私たちは、48,000 を超える合成注釈付き例を含む、メディア バイアス分類用の初の大規模データセットである annolexical を作成します。
このデータセットで微調整された分類器は、マシューズ相関係数 (MCC) ですべてのアノテーター LLM を 5 ~ 9 パーセント上回り、2 つのメディア バイアス ベンチマーク データセットで評価した場合、人間がラベル付けしたデータでトレーニングされたモデルに近いか、それを上回るパフォーマンスを示しました。
(ベイブとバジル)。
この研究は、私たちのアプローチがメディア バイアス ドメインのデータセット作成コスト、ひいては分類器の開発コストをどのように大幅に削減するかを実証するとともに、その後の行動ストレス テストで現在の制限とトレードオフの一部を明らかにしました。

要約(オリジナル)

High annotation costs from hiring or crowdsourcing complicate the creation of large, high-quality datasets needed for training reliable text classifiers. Recent research suggests using Large Language Models (LLMs) to automate the annotation process, reducing these costs while maintaining data quality. LLMs have shown promising results in annotating downstream tasks like hate speech detection and political framing. Building on the success in these areas, this study investigates whether LLMs are viable for annotating the complex task of media bias detection and whether a downstream media bias classifier can be trained on such data. We create annolexical, the first large-scale dataset for media bias classification with over 48000 synthetically annotated examples. Our classifier, fine-tuned on this dataset, surpasses all of the annotator LLMs by 5-9 percent in Matthews Correlation Coefficient (MCC) and performs close to or outperforms the model trained on human-labeled data when evaluated on two media bias benchmark datasets (BABE and BASIL). This study demonstrates how our approach significantly reduces the cost of dataset creation in the media bias domain and, by extension, the development of classifiers, while our subsequent behavioral stress-testing reveals some of its current limitations and trade-offs.

arxiv情報

著者 Tomas Horych,Christoph Mandl,Terry Ruas,Andre Greiner-Petter,Bela Gipp,Akiko Aizawa,Timo Spinde
発行日 2025-01-24 08:44:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク