Crowd-Calibrator: Can Annotator Disagreement Inform Calibration in Subjective Tasks?

要約

NLP における主観的なタスクは、ほとんどが客観的な基準に追いやられており、ゴールド ラベルは多数決によって決定されます。
これにより、アノテーターの意見の相違やラベルに固有の不確実性がわかりにくくなります。
私たちは、主観がモデルの決定に考慮に入れられ、選択的な予測設定の下でのキャリブレーションを通じて直接的な役割を果たすべきであると主張します。
具体的には、純粋にモデルの観点から信頼度を調整するのではなく、クラウド ワーカーの合意に基づいて主観的なタスクに対してモデルを調整します。
私たちの手法である Crowd-Calibrator は、クラウド ワーカーのラベルの分布とモデル自身のラベル上の分布の間の距離をモデル化し、モデルが決定を棄権すべきかどうかを通知します。
ヘイトスピーチ検出と自然言語推論という 2 つの非常に主観的なタスクに関して、私たちの実験では、Crowd-Calibrator が既存の選択的予測ベースラインを上回るパフォーマンスまたは競合パフォーマンスを達成することが示されました。
私たちの調査結果は、人間の意思決定をモデル予測に組み込むことの価値を浮き彫りにしています。

要約(オリジナル)

Subjective tasks in NLP have been mostly relegated to objective standards, where the gold label is decided by taking the majority vote. This obfuscates annotator disagreement and the inherent uncertainty of the label. We argue that subjectivity should factor into model decisions and play a direct role via calibration under a selective prediction setting. Specifically, instead of calibrating confidence purely from the model’s perspective, we calibrate models for subjective tasks based on crowd worker agreement. Our method, Crowd-Calibrator, models the distance between the distribution of crowd worker labels and the model’s own distribution over labels to inform whether the model should abstain from a decision. On two highly subjective tasks, hate speech detection and natural language inference, our experiments show Crowd-Calibrator either outperforms or achieves competitive performance with existing selective prediction baselines. Our findings highlight the value of bringing human decision-making into model predictions.

arxiv情報

著者 Urja Khurana,Eric Nalisnick,Antske Fokkens,Swabha Swayamdipta
発行日 2024-08-26 09:37:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク