ACTOR: Active Learning with Annotator-specific Classification Heads to Embrace Human Label Variation

要約

多数決などのラベル集約は、データセット作成時のアノテーターの不一致を解決するために一般的に使用されます。
ただし、これは少数派の価値観や意見を無視する可能性があります。
最近の研究では、かなりの量のアノテーションが必要ですが、個々のアノテーションからの学習は集合ラベルからの学習よりも優れていることが示されています。
アノテーションのコスト削減戦略としてのアクティブ ラーニングは、意見の相違から学ぶという文脈では十分に検討されていません。
能動学習設定では、不確実性推定の点で、マルチヘッド モデルがシングルヘッド モデルよりも大幅に優れたパフォーマンスを発揮することを示します。
2 つのデータセットでアノテーター固有のヘッドを使用して取得関数を設計および評価することにより、グループレベルのエントロピーが両方のデータセットで一般的に適切に機能することを示します。
重要なのは、アノテーション予算を最大 70% 節約しながら、不一致からの本格的なトレーニングに匹敵する予測と不確実性推定の両方のパフォーマンスを達成していることです。

要約(オリジナル)

Label aggregation such as majority voting is commonly used to resolve annotator disagreement in dataset creation. However, this may disregard minority values and opinions. Recent studies indicate that learning from individual annotations outperforms learning from aggregated labels, though they require a considerable amount of annotation. Active learning, as an annotation cost-saving strategy, has not been fully explored in the context of learning from disagreement. We show that in the active learning setting, a multi-head model performs significantly better than a single-head model in terms of uncertainty estimation. By designing and evaluating acquisition functions with annotator-specific heads on two datasets, we show that group-level entropy works generally well on both datasets. Importantly, it achieves performance in terms of both prediction and uncertainty estimation comparable to full-scale training from disagreement, while saving up to 70% of the annotation budget.

arxiv情報

著者 Xinpeng Wang,Barbara Plank
発行日 2023-10-23 14:26:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク