ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks


多くの NLP アプリケーションでは、さまざまなタスク、特に分類器のトレーニングや教師なしモデルのパフォーマンスの評価のために手動のデータ アノテーションが必要です。
規模と複雑さの程度に応じて、MTurk などのプラットフォーム上のクラウド ワーカーや、研究アシスタントなどの訓練を受けたアノテーターによってタスクが実行される場合があります。
2,382 件のツイートのサンプルを使用して、ChatGPT が関連性、スタンス、トピック、フレーム検出などのいくつかの注釈タスクでクラウド ワーカーよりも優れていることを示します。
具体的には、ChatGPT のゼロショット精度は、5 つのタスクのうち 4 つについてクラウド ワーカーの精度を上回り、ChatGPT のインターコーダ合意は、すべてのタスクについてクラウド ワーカーと訓練を受けたアノテーターの両方の精度を上回っています。
さらに、ChatGPT の注釈ごとのコストは 0.003 ドル未満で、MTurk の約 20 分の 1 です。


Many NLP applications require manual data annotations for a variety of tasks, notably to train classifiers or evaluate the performance of unsupervised models. Depending on the size and degree of complexity, the tasks may be conducted by crowd-workers on platforms such as MTurk as well as trained annotators, such as research assistants. Using a sample of 2,382 tweets, we demonstrate that ChatGPT outperforms crowd-workers for several annotation tasks, including relevance, stance, topics, and frames detection. Specifically, the zero-shot accuracy of ChatGPT exceeds that of crowd-workers for four out of five tasks, while ChatGPT’s intercoder agreement exceeds that of both crowd-workers and trained annotators for all tasks. Moreover, the per-annotation cost of ChatGPT is less than $0.003 — about twenty times cheaper than MTurk. These results show the potential of large language models to drastically increase the efficiency of text classification.


著者 Fabrizio Gilardi,Meysam Alizadeh,Maël Kubli
発行日 2023-07-19 14:10:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL, cs.CY パーマリンク