要約
大規模言語モデル (LLM) は、優れたデータ アノテーターです。
これらは、調査および実験データだけでなく、忠実度の高い教師付きトレーニング データを生成するために使用できます。
LLM が広く採用されるようになったことで、人間のゴールドスタンダード アノテーションは、LLM の機能とその結果の妥当性を理解するための鍵となります。
ただし、クラウド ワーカーには生産性と収入を向上させるために LLM を使用するという経済的インセンティブがあるため、ヒューマン アノテーションを取得するための重要かつ安価な方法であるクラウドソーシング自体が LLM の影響を受ける可能性があります。
この懸念を調査するために、私たちはクラウド ワーカーによる LLM の使用の普及に関するケーススタディを実施しました。
Amazon Mechanical Turk の文献から抽象的な要約タスクを再実行し、キーストローク検出と合成テキスト分類を組み合わせて、タスクを完了するときにクラウド ワーカーの 33 ~ 46% が LLM を使用したと推定しました。
LLM にあまり適さない他のタスクへの一般化は不明ですが、私たちの結果は、プラットフォーム、研究者、クラウド ワーカーに対し、おそらくここで提案された方法論を足がかりとして、人間のデータが人間のままであることを保証する新しい方法を見つけることを求めています。
コード/データ: https://github.com/epfl-dlab/GPTurk
要約(オリジナル)
Large language models (LLMs) are remarkable data annotators. They can be used to generate high-fidelity supervised training data, as well as survey and experimental data. With the widespread adoption of LLMs, human gold–standard annotations are key to understanding the capabilities of LLMs and the validity of their results. However, crowdsourcing, an important, inexpensive way to obtain human annotations, may itself be impacted by LLMs, as crowd workers have financial incentives to use LLMs to increase their productivity and income. To investigate this concern, we conducted a case study on the prevalence of LLM usage by crowd workers. We reran an abstract summarization task from the literature on Amazon Mechanical Turk and, through a combination of keystroke detection and synthetic text classification, estimate that 33-46% of crowd workers used LLMs when completing the task. Although generalization to other, less LLM-friendly tasks is unclear, our results call for platforms, researchers, and crowd workers to find new ways to ensure that human data remain human, perhaps using the methodology proposed here as a stepping stone. Code/data: https://github.com/epfl-dlab/GPTurk
arxiv情報
著者 | Veniamin Veselovsky,Manoel Horta Ribeiro,Robert West |
発行日 | 2023-06-13 16:46:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google