要約
AIの進歩は、アノテーター市場からより広いインターネットまで、人間で生成されたデータに依存しています。
ただし、大規模な言語モデルの広範な使用は、これらのプラットフォーム上の人間で生成されたデータの品質と完全性を脅かしています。
この問題は、AIに生成されたコンテンツをフィルタリングするという即時の課題を超えていると主張します。それは、データ収集システムの設計方法に関するより深い欠陥を明らかにしています。
既存のシステムは、多くの場合、本質的な人間の動機付けを犠牲にして速度、スケール、効率を優先し、エンゲージメントとデータの品質の低下につながります。
データ収集システムを再考するために、貢献者の本質的な動機(外部のインセンティブのみに依存するよりも)に合わせて、貢献者の信頼と長期参加を維持しながら、大規模な高品質のデータ調達を支援することを提案します。
要約(オリジナル)
Progress in AI has relied on human-generated data, from annotator marketplaces to the wider Internet. However, the widespread use of large language models now threatens the quality and integrity of human-generated data on these very platforms. We argue that this issue goes beyond the immediate challenge of filtering AI-generated content–it reveals deeper flaws in how data collection systems are designed. Existing systems often prioritize speed, scale, and efficiency at the cost of intrinsic human motivation, leading to declining engagement and data quality. We propose that rethinking data collection systems to align with contributors’ intrinsic motivations–rather than relying solely on external incentives–can help sustain high-quality data sourcing at scale while maintaining contributor trust and long-term participation.
arxiv情報
著者 | Sebastin Santy,Prasanta Bhattacharya,Manoel Horta Ribeiro,Kelsey Allen,Sewoong Oh |
発行日 | 2025-02-11 17:51:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google