Can ChatGPT Reproduce Human-Generated Labels? A Study of Social Computing Tasks

要約

タイトル:ChatGPTは人間が生成したラベルを再現できるか?ソーシャルコンピューティングタスクにおける研究

要約:
– ChatGPTのリリースによって、大規模な言語モデル(LLMs)が人間の知性を置き換える可能性が明らかになりました。
– この論文では、 ChatGPTがソーシャルコンピューティングタスクで人間が生成したラベルアノテーションを再現する可能性があるかどうかを理解することを目的としています。
– そうした成果は、ソーシャルコンピューティング研究のコストと複雑さを大幅に削減することができます。
– そこで、 ChatGPTを使用して、スタンス検出(2回)、感情分析、ヘイトスピーチ、およびボット検出をカバーする5つの基本的なデータセットを再ラベリングしました。
– 結果として、 ChatGPTがこれらのデータアノテーションタスクを処理する可能性があることがわかりましたが、いくつかの課題が残っています。
– ChatGPTは平均正解率0.609を獲得しました。感情分析データセットでは、ChatGPTがツイートの64.9%を正しくアノテートすることができるため、性能が最も高くなります。
– しかし、個々のラベルにおいて性能が大幅に異なることを示しました。
– この研究が新しい分析の展開を促し、ChatGPTを人間のアノテーションタスクに活用する研究の基盤となることを期待しています。

要約(オリジナル)

The release of ChatGPT has uncovered a range of possibilities whereby large language models (LLMs) can substitute human intelligence. In this paper, we seek to understand whether ChatGPT has the potential to reproduce human-generated label annotations in social computing tasks. Such an achievement could significantly reduce the cost and complexity of social computing research. As such, we use ChatGPT to relabel five seminal datasets covering stance detection (2x), sentiment analysis, hate speech, and bot detection. Our results highlight that ChatGPT does have the potential to handle these data annotation tasks, although a number of challenges remain. ChatGPT obtains an average accuracy 0.609. Performance is highest for the sentiment analysis dataset, with ChatGPT correctly annotating 64.9% of tweets. Yet, we show that performance varies substantially across individual labels. We believe this work can open up new lines of analysis and act as a basis for future research into the exploitation of ChatGPT for human annotation tasks.

arxiv情報

著者 Yiming Zhu,Peixian Zhang,Ehsan-Ul Haq,Pan Hui,Gareth Tyson
発行日 2023-04-22 08:55:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL パーマリンク