Corpus Considerations for Annotator Modeling and Scaling

要約

自然言語処理の研究とアノテーション タスクの最近の傾向は、従来の単一の真実への依存から、特に主観的なタスクにおいて、個人の視点に焦点を当てるというパラダイム シフトを裏付けています。
アノテーション タスクが多様性を包含することを意図しているシナリオでは、多数派のクラス ラベルのみに依存するモデルは、貴重な少数派の視点を誤って無視する可能性があります。
この見落としは重要な情報の欠落につながる可能性があり、より広い意味で、より大きなエコシステム内のバランスを崩す危険性があります。
アノテーター モデリングの状況が多様な表現手法で展開されるにつれ、データセットのきめ細かい特徴を考慮してその有効性を調査することが不可欠になっています。
この研究では、さまざまなアノテーター モデリング手法を体系的に調査し、7 つのコーパスにわたってそのパフォーマンスを比較します。
私たちの調査結果から、一般的に使用されるユーザー トークン モデルは、より複雑なモデルよりも一貫して優れていることがわかります。
複合埋め込みアプローチを導入し、特定のデータセットとの一致に応じてどのモデルが最もパフォーマンスを発揮するかという明確な違いを示します。
私たちの調査結果は、コーパス統計とアノテーター モデリングのパフォーマンスとの関係に光を当て、コーパス構築とパースペクティビスト NLP に関する将来の研究に情報を提供します。

要約(オリジナル)

Recent trends in natural language processing research and annotation tasks affirm a paradigm shift from the traditional reliance on a single ground truth to a focus on individual perspectives, particularly in subjective tasks. In scenarios where annotation tasks are meant to encompass diversity, models that solely rely on the majority class labels may inadvertently disregard valuable minority perspectives. This oversight could result in the omission of crucial information and, in a broader context, risk disrupting the balance within larger ecosystems. As the landscape of annotator modeling unfolds with diverse representation techniques, it becomes imperative to investigate their effectiveness with the fine-grained features of the datasets in view. This study systematically explores various annotator modeling techniques and compares their performance across seven corpora. From our findings, we show that the commonly used user token model consistently outperforms more complex models. We introduce a composite embedding approach and show distinct differences in which model performs best as a function of the agreement with a given dataset. Our findings shed light on the relationship between corpus statistics and annotator modeling performance, which informs future work on corpus construction and perspectivist NLP.

arxiv情報

著者 Olufunke O. Sarumi,Béla Neuendorf,Joan Plepi,Lucie Flek,Jörg Schlötterer,Charles Welch
発行日 2024-04-17 14:02:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, F.2.2 パーマリンク