要約
機械学習タスクの効果的なトレーニング信号を選択することは困難です。専門家の注釈は高価であり、クラウドソーシングの注釈は信頼できない場合があります。
最近の研究では、群衆の注釈から得られたラベルを介した分布から学習することが、パフォーマンスと不確実性の推定の両方に効果的であることが実証されています。
ただし、これは主に、ドメイン内の設定で限られたソフトラベルメソッドセットを使用して研究されています。
さらに、タスク全体で一貫してうまく機能する方法はありません。
これらのギャップを埋めるために、このペーパーでは、ドメイン外の設定で群衆のラベルから学習することに関する最初の大規模な実証研究を提供し、4つの言語タスクとビジョンタスクで8つのソフトラベル方法を体系的に分析します。
さらに、タスク全体で一貫したパフォーマンスを達成するために、単純な平均を介してソフトラベルを集約することを提案します。
これにより、ほとんどの設定で予測不確実性の推定が改善された分類器が、個々のソフトラベル付け方法からの学習や注釈の多数決を採用するのと比較して、一貫した生のパフォーマンスを維持しながら、分類器を生成することを実証します。
さらに、トレーニングデータが豊富または最小限のレジームでは、ソフトラベル付け方法の選択はそれほど重要ではありませんが、非常に主観的なラベルと中程度のトレーニングデータでは、集約により個々の方法にわたって不確実性の推定が大幅に改善されることを強調しています。
コードはhttps://github.com/copenlu/aggregating-crowd-annotations-owにあります。
要約(オリジナル)
Selecting an effective training signal for machine learning tasks is difficult: expert annotations are expensive, and crowd-sourced annotations may not be reliable. Recent work has demonstrated that learning from a distribution over labels acquired from crowd annotations can be effective both for performance and uncertainty estimation. However, this has mainly been studied using a limited set of soft-labeling methods in an in-domain setting. Additionally, no one method has been shown to consistently perform well across tasks, making it difficult to know a priori which to choose. To fill these gaps, this paper provides the first large-scale empirical study on learning from crowd labels in the out-of-domain setting, systematically analyzing 8 soft-labeling methods on 4 language and vision tasks. Additionally, we propose to aggregate soft-labels via a simple average in order to achieve consistent performance across tasks. We demonstrate that this yields classifiers with improved predictive uncertainty estimation in most settings while maintaining consistent raw performance compared to learning from individual soft-labeling methods or taking a majority vote of the annotations. We additionally highlight that in regimes with abundant or minimal training data, the selection of soft labeling method is less important, while for highly subjective labels and moderate amounts of training data, aggregation yields significant improvements in uncertainty estimation over individual methods. Code can be found at https://github.com/copenlu/aggregating-crowd-annotations-ood.
arxiv情報
著者 | Dustin Wright,Isabelle Augenstein |
発行日 | 2025-04-22 13:00:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google