Open-Source Large Language Models Outperform Crowd Workers and Approach ChatGPT in Text-Annotation Tasks

要約

この研究では、テキスト注釈タスクにおけるオープンソースの大規模言語モデル (LLM) のパフォーマンスを調査し、それを ChatGPT などの独自モデルや MTurk などの人ベースのサービスと比較します。
以前の研究では、多数の NLP タスクにわたって ChatGPT の高いパフォーマンスが実証されましたが、HugginChat や FLAN などのオープンソース LLM は、その費用対効果、透明性、再現性、優れたデータ保護により注目を集めています。
私たちは、ゼロショットと少数ショットの両方のアプローチと、さまざまなテキスト注釈タスクにわたるさまざまな温度パラメーターを使用して、これらのモデルを評価します。
私たちの調査結果は、ChatGPT がほとんどのタスクで最高のパフォーマンスを達成する一方で、オープンソース LLM は MTurk を上回るパフォーマンスを発揮するだけでなく、特定のタスクにおいて ChatGPT に対して競争力を発揮することを示しています。

要約(オリジナル)

This study examines the performance of open-source Large Language Models (LLMs) in text annotation tasks and compares it with proprietary models like ChatGPT and human-based services such as MTurk. While prior research demonstrated the high performance of ChatGPT across numerous NLP tasks, open-source LLMs like HugginChat and FLAN are gaining attention for their cost-effectiveness, transparency, reproducibility, and superior data protection. We assess these models using both zero-shot and few-shot approaches and different temperature parameters across a range of text annotation tasks. Our findings show that while ChatGPT achieves the best performance in most tasks, open-source LLMs not only outperform MTurk but also demonstrate competitive potential against ChatGPT in specific tasks.

arxiv情報

著者 Meysam Alizadeh,Maël Kubli,Zeynab Samei,Shirin Dehghani,Juan Diego Bermeo,Maria Korobeynikova,Fabrizio Gilardi
発行日 2023-07-05 10:15:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク