Leveraging Label Variation in Large Language Models for Zero-Shot Text Classification

要約

大規模言語モデル (LLM) のゼロショット学習機能により、注釈や教師ありトレーニングを必要としないテキスト分類に最適です。
多くの研究で、複数のタスクにわたって印象的な結果が示されています。
タスク、データ、結果は大きく異なりますが、人間による注釈との類似点は、最小限の費用で新しいタスクに取り組むのに役立ちます。
英語、フランス語、ドイツ語、スペイン語の 4 つの言語にわたって、5 つの異なるタスク (年齢、性別、トピック、感情予測、ヘイトスピーチ検出) の「アノテーター」として 5 つの最先端の LLM を使用して評価しました。
すべてのタスク、言語間、またはタスク内のすべてのラベルにおいて、単一のモデルが優れているということはありません。
ただし、ヒューマン アノテーター向けに設計された集計手法は、単一の個別モデルよりも大幅に優れたパフォーマンスを発揮します。
ただし、全体としては、LLM は単純な教師ありモデルにも匹敵しないため、人間によるアノテーションの必要性が (まだ) 置き換えられるわけではありません。
また、集約モデルのラベル付けと人間によるアノテーションに関して、速度、精度、コスト、バイアスの間のトレードオフについても説明します。

要約(オリジナル)

The zero-shot learning capabilities of large language models (LLMs) make them ideal for text classification without annotation or supervised training. Many studies have shown impressive results across multiple tasks. While tasks, data, and results differ widely, their similarities to human annotation can aid us in tackling new tasks with minimal expenses. We evaluate using 5 state-of-the-art LLMs as ‘annotators’ on 5 different tasks (age, gender, topic, sentiment prediction, and hate speech detection), across 4 languages: English, French, German, and Spanish. No single model excels at all tasks, across languages, or across all labels within a task. However, aggregation techniques designed for human annotators perform substantially better than any one individual model. Overall, though, LLMs do not rival even simple supervised models, so they do not (yet) replace the need for human annotation. We also discuss the tradeoffs between speed, accuracy, cost, and bias when it comes to aggregated model labeling versus human annotation.

arxiv情報

著者 Flor Miriam Plaza-del-Arco,Debora Nozza,Dirk Hovy
発行日 2023-07-24 17:49:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク