Don’t Waste a Single Annotation: Improving Single-Label Classifiers Through Soft Labels

要約

この論文では、客観的な単一ラベル分類タスクの一般的なデータ アノテーションとトレーニング方法の制限について説明します。
通常、このようなタスクにアノテーションを付ける場合、アノテーターはサンプルごとに 1 つのラベルを提供することのみを求められ、最終的なハードラベルが多数決によって決定されるときにアノテーターの意見の相違は破棄されます。
データ サンプルのあいまいさとコンテキストの欠如により、適切なラベルを決定することが困難になる可能性があることを認識し、この従来のアプローチに挑戦します。
このようなあいまいな注釈からの情報を破棄するのではなく、私たちのソフトラベル手法はそれらをトレーニングに利用します。
私たちの調査結果は、信頼度、二次ラベル、不一致などの追加のアノテーター情報を使用して、ソフトラベルを効果的に生成できることを示しています。
これらのソフト ラベルを使用して分類器をトレーニングすると、ハード ラベル テスト セットのパフォーマンスとキャリブレーションが向上します。

要約(オリジナル)

In this paper, we address the limitations of the common data annotation and training methods for objective single-label classification tasks. Typically, when annotating such tasks annotators are only asked to provide a single label for each sample and annotator disagreement is discarded when a final hard label is decided through majority voting. We challenge this traditional approach, acknowledging that determining the appropriate label can be difficult due to the ambiguity and lack of context in the data samples. Rather than discarding the information from such ambiguous annotations, our soft label method makes use of them for training. Our findings indicate that additional annotator information, such as confidence, secondary label and disagreement, can be used to effectively generate soft labels. Training classifiers with these soft labels then leads to improved performance and calibration on the hard label test set.

arxiv情報

著者 Ben Wu,Yue Li,Yida Mu,Carolina Scarton,Kalina Bontcheva,Xingyi Song
発行日 2023-11-09 10:47:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク