‘You are an expert annotator’: Automatic Best-Worst-Scaling Annotations for Emotion Intensity Modeling

要約

コーパスのラベル付けは、新しいタスクまたはドメインのモデルを作成する際のボトルネックになります。
大規模な言語モデルでは、特にカテゴリカルな注釈の場合、コーパスの自動ラベル付け方法の問題が軽減されます。
ただし、感情の強さの予測などの一部の NLP タスクではテキスト回帰が必要ですが、連続ラベル割り当ての注釈を自動化する取り組みはありません。
回帰は分類よりも難しいと考えられています。人間は、評価スケールから値を選択するタスクを課された場合にパフォーマンスが低下するという事実から、最良と最悪のスケーリングなどの比較アノテーション方法が使用されます。
これにより、大規模言語モデルに基づくアノテーション手法が同様のパターンを示すかどうか、つまり、比較アノテーション タスクよりも評価スケールのアノテーション タスクの方がパフォーマンスが悪いのではないかという疑問が生じます。
これを研究するために、感情の強さの予測を自動化し、直接の評価スケール予測、ペアごとの比較、および最高と最悪のスケーリングを比較します。
後者が最も高い信頼性を示すことがわかります。
これらのデータに基づいて微調整されたトランスフォーマー リグレッサーは、元の手動アノテーションに基づいてトレーニングされたモデルとほぼ同等のパフォーマンスを発揮します。

要約(オリジナル)

Labeling corpora constitutes a bottleneck to create models for new tasks or domains. Large language models mitigate the issue with automatic corpus labeling methods, particularly for categorical annotations. Some NLP tasks such as emotion intensity prediction, however, require text regression, but there is no work on automating annotations for continuous label assignments. Regression is considered more challenging than classification: The fact that humans perform worse when tasked to choose values from a rating scale lead to comparative annotation methods, including best-worst scaling. This raises the question if large language model-based annotation methods show similar patterns, namely that they perform worse on rating scale annotation tasks than on comparative annotation tasks. To study this, we automate emotion intensity predictions and compare direct rating scale predictions, pairwise comparisons and best-worst scaling. We find that the latter shows the highest reliability. A transformer regressor fine-tuned on these data performs nearly on par with a model trained on the original manual annotations.

arxiv情報

著者 Christopher Bagdon,Prathamesh Karmalker,Harsha Gurulingappa,Roman Klinger
発行日 2024-04-22 12:12:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク