要約
この研究では、テキスト注釈タスクにおけるオープンソースの大規模言語モデル (LLM) のパフォーマンスを調査し、それを ChatGPT などの独自モデルや MTurk などの人ベースのサービスと比較します。
以前の研究では、多数の NLP タスクにわたって ChatGPT の高いパフォーマンスが実証されましたが、HugginChat や FLAN などのオープンソース LLM は、その費用対効果、透明性、再現性、優れたデータ保護により注目を集めています。
私たちは、ゼロショットと少数ショットの両方のアプローチと、さまざまなテキスト注釈タスクにわたるさまざまな温度パラメーターを使用して、これらのモデルを評価します。
私たちの調査結果は、ChatGPT がほとんどのタスクで最高のパフォーマンスを達成する一方で、オープンソース LLM は MTurk を上回るパフォーマンスを発揮するだけでなく、特定のタスクにおいて ChatGPT に対して競争力を発揮することを示しています。
要約(オリジナル)
This study examines the performance of open-source Large Language Models (LLMs) in text annotation tasks and compares it with proprietary models like ChatGPT and human-based services such as MTurk. While prior research demonstrated the high performance of ChatGPT across numerous NLP tasks, open-source LLMs like HugginChat and FLAN are gaining attention for their cost-effectiveness, transparency, reproducibility, and superior data protection. We assess these models using both zero-shot and few-shot approaches and different temperature parameters across a range of text annotation tasks. Our findings show that while ChatGPT achieves the best performance in most tasks, open-source LLMs not only outperform MTurk but also demonstrate competitive potential against ChatGPT in specific tasks.
arxiv情報
著者 | Meysam Alizadeh,Maël Kubli,Zeynab Samei,Shirin Dehghani,Juan Diego Bermeo,Maria Korobeynikova,Fabrizio Gilardi |
発行日 | 2023-07-05 10:15:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google