– この論文は、Twitterメッセージからポスターの政治的アフィリエーションを分類するテキスト分析タスクにおける大規模言語モデル(LLM)ChatGPT-4の正確さ、信頼性、バイアスを評価します。
– 専門家分類器とクラウドワーカーによる手動注釈と比較され、一般的にこのようなタスクのゴールドスタンダードと考えられています。
– 2020年の米国の政治家からのTwitterメッセージを使用し、精度を測定する基準となるグラウンドトゥルースを提供します。
– ChatGPT-4は、人間の分類器よりも高い精度、高い信頼性、同等または低いバイアスを達成しています。
– LLMは、文脈的な知識に基づく推論や著者の意図に関する推論を必要とするメッセージを正しく注釈付けすることができます。これらの結果は、LLMが解釈的研究をスケール化することで、社会科学のテキストデータの使用に重大な影響を与えることを示唆しています。
This paper assesses the accuracy, reliability and bias of the Large Language Model (LLM) ChatGPT-4 on the text analysis task of classifying the political affiliation of a Twitter poster based on the content of a tweet. The LLM is compared to manual annotation by both expert classifiers and crowd workers, generally considered the gold standard for such tasks. We use Twitter messages from United States politicians during the 2020 election, providing a ground truth against which to measure accuracy. The paper finds that ChatGPT-4 has achieves higher accuracy, higher reliability, and equal or lower bias than the human classifiers. The LLM is able to correctly annotate messages that require reasoning on the basis of contextual knowledge, and inferences around the author’s intentions – traditionally seen as uniquely human abilities. These findings suggest that LLM will have substantial impact on the use of textual data in the social sciences, by enabling interpretive research at a scale.
著者 | Petter Törnberg |
発行日 | 2023-04-13 14:51:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI