The Effectiveness of LLMs as Annotators: A Comparative Overview and Empirical Analysis of Direct Representation

要約

大規模言語モデル (LLM) は、さまざまな自然言語タスクおよびさまざまなアプリケーション ドメインにわたる強力なサポート ツールとして登場しました。
最近の研究は、データ注釈の機能の探索に焦点を当てています。
このペーパーでは、データのラベル付けにおける LLM の可能性を調査した 12 件の研究の比較概要を提供します。
このモデルはコストと時間の節約に期待できる利点を示していますが、代表性、偏り、プロンプトの変化に対する敏感さ、英語の好みなど、かなりの制限が存在します。
これらの研究からの洞察を活用して、私たちの実証分析では、4 つの主観的なデータセットにわたる人間の意見分布と GPT によって生成された意見分布の間の整合性をさらに調査します。
表現を調査する研究とは対照的に、私たちの方法論はGPTから意見分布を直接取得します。
したがって、私たちの分析は、データ注釈タスクを評価する際に多様な視点を考慮している少数の研究を裏付けており、この方向でのさらなる研究の必要性を浮き彫りにしています。

要約(オリジナル)

Large Language Models (LLMs) have emerged as powerful support tools across various natural language tasks and a range of application domains. Recent studies focus on exploring their capabilities for data annotation. This paper provides a comparative overview of twelve studies investigating the potential of LLMs in labelling data. While the models demonstrate promising cost and time-saving benefits, there exist considerable limitations, such as representativeness, bias, sensitivity to prompt variations and English language preference. Leveraging insights from these studies, our empirical analysis further examines the alignment between human and GPT-generated opinion distributions across four subjective datasets. In contrast to the studies examining representation, our methodology directly obtains the opinion distribution from GPT. Our analysis thereby supports the minority of studies that are considering diverse perspectives when evaluating data annotation tasks and highlights the need for further research in this direction.

arxiv情報

著者 Maja Pavlovic,Massimo Poesio
発行日 2024-05-02 14:00:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク