Loss Modeling for Multi-Annotator Datasets

要約

データセットのすべてのアノテーターの意見を考慮することは、公平性を保つために重要です。
ただし、大規模なデータセットにアノテーションを付ける場合、個々のアノテーターは頻繁に何千もの評価を提供するため、疲労が生じる可能性があります。
さらに、これらのアノテーション プロセスは数日間にわたって実行される可能性があり、時間の経過とともにアノテーターの意見が不正確に表現される可能性があります。
これに対処するために、損失ベースのラベル修正と組み合わせてマルチタスク学習を利用することで、多様な意見のより正確な表現を学習することを提案します。
私たちは、新しい定式化を使用して、同意する注釈と反対する注釈をきれいに分離できることを示します。
さらに、この変更により、単一または複数のアノテーター設定での予測パフォーマンスが向上することを示します。
最後に、この方法が主観的なデータに適用される追加のラベル ノイズに対して堅牢であることを示します。

要約(オリジナル)

Accounting for the opinions of all annotators of a dataset is critical for fairness. However, when annotating large datasets, individual annotators will frequently provide thousands of ratings which can lead to fatigue. Additionally, these annotation processes can occur over multiple days which can lead to an inaccurate representation of an annotator’s opinion over time. To combat this, we propose to learn a more accurate representation of diverse opinions by utilizing multitask learning in conjunction with loss-based label correction. We show that using our novel formulation, we can cleanly separate agreeing and disagreeing annotations. Furthermore, we demonstrate that this modification can improve prediction performance in a single or multi-annotator setting. Lastly, we show that this method remains robust to additional label noise that is applied to subjective data.

arxiv情報

著者 Uthman Jinadu,Jesse Annan,Shanshan Wen,Yi Ding
発行日 2023-11-01 16:14:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.LG パーマリンク