Multi-News+: Cost-efficient Dataset Cleansing via LLM-based Data Annotation

要約

データセットの品質は、下流のタスク モデルの最適なパフォーマンスと信頼性を確保するために非常に重要です。
ただし、データセットには、構築プロセス中に誤って含まれたノイズの多いデータが含まれることがよくあります。
ヒューマン・アノテーターを通じてこの問題を修正するための多くの試みが行われてきました。
ただし、ヒューマン・アノテーターの雇用と管理には費用と時間がかかります。
代替案として、最近の研究では、データ アノテーションに大規模言語モデル (LLM) を使用することが検討されています。
この研究では、LLM ベースのデータ アノテーションの適用を拡張し、クレンジング戦略を通じて既存のデータセットの品質を向上させるケース スタディを紹介します。
具体的には、思考連鎖 (CoT) や多数決などのアプローチを活用して、人間による注釈を模倣し、複数文書の要約タスクに広く使用されているマルチニュース データセットから関連のない文書を分類します。
私たちが提案するクレンジング方法を通じて、強化されたMulti-News+を導入します。
データ クレンジングに LLM を採用することで、高価な人間によるアノテーション作業に頼ることなく、データセットの品質を向上させる効率的かつ効果的なアプローチを実証します。

要約(オリジナル)

The quality of the dataset is crucial for ensuring optimal performance and reliability of downstream task models. However, datasets often contain noisy data inadvertently included during the construction process. Numerous attempts have been made to correct this issue through human annotators. However, hiring and managing human annotators is expensive and time-consuming. As an alternative, recent studies are exploring the use of large language models (LLMs) for data annotation. In this study, we present a case study that extends the application of LLM-based data annotation to enhance the quality of existing datasets through a cleansing strategy. Specifically, we leverage approaches such as chain-of-thought (CoT) and majority voting to imitate human annotation and classify unrelated documents from the Multi-News dataset, which is widely used for the multi-document summarization task. Through our proposed cleansing method, we introduce an enhanced Multi-News+. By employing LLMs for data cleansing, we demonstrate an efficient and effective approach to improving dataset quality without relying on expensive human annotation efforts.

arxiv情報

著者 Juhwan Choi,Jungmin Yun,Kyohoon Jin,YoungBin Kim
発行日 2024-04-15 11:36:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク