要約
主観的な NLP タスクでは、単一のグラウンド トゥルースが存在しないため、多様なアノテーターの独自の視点がアノテーションに大きな影響を与えるため、多様なアノテーターを含めることが重要になります。
現実的なシナリオでは、アノテーションの予算が、データとその後のモデリングに含まれるパースペクティブ (つまり、アノテーター) の数の主な決定要因となることがよくあります。
各アノテーターの予測パフォーマンスを最大化しながら、アノテーションの予算を最小限に抑えることを目的とした、主観的なタスクにおけるアノテーションの収集とモデリングのための新しいフレームワークを導入します。
私たちのフレームワークは 2 段階の設計になっています。まず、少数のアノテーターのセットに依存してマルチタスク モデルを構築します。次に、アノテーターごとにいくつかのサンプルに戦略的にアノテーションを付けることで、新しい視点に向けてモデルを強化します。
私たちのフレームワークを大規模にテストするために、24 人のアノテーターによって道徳的感情について注釈が付けられた 2000 件の Reddit 投稿の独自のデータセットである道徳基礎主観コーパスを導入し、リリースしました。
私たちのフレームワークは、2 つのデータセットに対する元のアノテーション予算のわずか 25% でアノテーターの個々の視点をキャプチャする点で、以前の SOTA を超えていることを示します。
さらに、私たちのフレームワークにより、より公平なモデルが得られ、アノテーター間のパフォーマンスの格差が軽減されます。
要約(オリジナル)
In subjective NLP tasks, where a single ground truth does not exist, the inclusion of diverse annotators becomes crucial as their unique perspectives significantly influence the annotations. In realistic scenarios, the annotation budget often becomes the main determinant of the number of perspectives (i.e., annotators) included in the data and subsequent modeling. We introduce a novel framework for annotation collection and modeling in subjective tasks that aims to minimize the annotation budget while maximizing the predictive performance for each annotator. Our framework has a two-stage design: first, we rely on a small set of annotators to build a multitask model, and second, we augment the model for a new perspective by strategically annotating a few samples per annotator. To test our framework at scale, we introduce and release a unique dataset, Moral Foundations Subjective Corpus, of 2000 Reddit posts annotated by 24 annotators for moral sentiment. We demonstrate that our framework surpasses the previous SOTA in capturing the annotators’ individual perspectives with as little as 25% of the original annotation budget on two datasets. Furthermore, our framework results in more equitable models, reducing the performance disparity among annotators.
arxiv情報
著者 | Preni Golazizian,Alireza S. Ziabari,Ali Omrani,Morteza Dehghani |
発行日 | 2024-09-05 16:21:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google