要約
感情認識モデルのトレーニングは人間による注釈付きデータに大きく依存しており、多様性、品質、コストの課題が生じています。
この論文では、感情注釈の自動化または支援における大規模言語モデル (LLM)、特に GPT4 の可能性を探ります。
私たちは、人間の注釈との一致、人間の認識との一致、モデルのトレーニングへの影響という 3 つの側面で GPT4 を教師付きモデルまたは人間と比較します。
私たちは、集約された人間のアノテーションをグラウンド トゥルースとして使用する一般的な指標が GPT-4 のパフォーマンスを過小評価する可能性があることを発見し、人間による評価実験により、複数のデータセットと評価者にわたって人間よりも GPT-4 アノテーションが一貫して好まれることが明らかになりました。
さらに、モデルのトレーニングを改善するためのアノテーション フィルタリング プロセスとして GPT-4 を使用することの影響を調査します。
まとめると、私たちの調査結果は、感情注釈タスクにおける LLM の大きな可能性を強調し、洗練された評価方法論の必要性を強調しています。
要約(オリジナル)
Training emotion recognition models has relied heavily on human annotated data, which present diversity, quality, and cost challenges. In this paper, we explore the potential of Large Language Models (LLMs), specifically GPT4, in automating or assisting emotion annotation. We compare GPT4 with supervised models and or humans in three aspects: agreement with human annotations, alignment with human perception, and impact on model training. We find that common metrics that use aggregated human annotations as ground truth can underestimate the performance, of GPT-4 and our human evaluation experiment reveals a consistent preference for GPT-4 annotations over humans across multiple datasets and evaluators. Further, we investigate the impact of using GPT-4 as an annotation filtering process to improve model training. Together, our findings highlight the great potential of LLMs in emotion annotation tasks and underscore the need for refined evaluation methodologies.
arxiv情報
著者 | Minxue Niu,Mimansa Jaiswal,Emily Mower Provost |
発行日 | 2024-08-30 05:50:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google