要約
データセットのサイズが大きくなるにつれて、そのようなデータセットに正確にアノテーションを付けることは、時間と経済の両方でコストがかかるため、非現実的になってきています。
したがって、ラベル収集のコストを軽減するためにクラウド ソーシングが広く採用されていますが、これにより必然的にラベル ノイズが発生し、最終的にはモデルのパフォーマンスが低下します。
クラウドソーシングのアノテーションから学ぶには、各アノテーターの専門知識をモデル化することが一般的ですが、困難なパラダイムです。これは、クラウドソーシングによって収集されたアノテーションが通常、非常にまばらであるためです。
この問題を軽減するために、我々は結合混同補正 (CCC) を提案します。これは、2 つのモデルが同時にトレーニングされて、相互に学習した混同行列を補正します。
バイレベル最適化により、一方のモデルによって学習された混同行列を、もう一方のモデルから抽出されたデータによって修正できます。
さらに、同様の専門知識を共有する「アノテーター グループ」をクラスタリングして、混同行列を一緒に修正できるようにします。
このようにして、アノテーター、特にラベルをほとんど提供しない人の専門知識をより適切に把握できるようになります。
注目すべきことに、アノテーションの希薄性はラベルの平均数が少ないことを意味するだけでなく、非常に少ないラベルを提供するアノテーターが常に存在することを指摘しています。これは、合成クラウドソーシング アノテーションを構築する際の以前の研究では無視されています。
これに基づいて、合成アノテーションが現実世界のアノテーションとより一致するように、ベータ配布を使用してクラウドソーシング ラベルの生成を制御することを提案します。
2 種類の合成データセットと 3 つの現実世界のデータセットに対して広範な実験が行われ、その結果は CCC が最先端のアプローチよりも大幅に優れていることを示しています。
要約(オリジナル)
As the size of the datasets getting larger, accurately annotating such datasets is becoming more impractical due to the expensiveness on both time and economy. Therefore, crowd-sourcing has been widely adopted to alleviate the cost of collecting labels, which also inevitably introduces label noise and eventually degrades the performance of the model. To learn from crowd-sourcing annotations, modeling the expertise of each annotator is a common but challenging paradigm, because the annotations collected by crowd-sourcing are usually highly-sparse. To alleviate this problem, we propose Coupled Confusion Correction (CCC), where two models are simultaneously trained to correct the confusion matrices learned by each other. Via bi-level optimization, the confusion matrices learned by one model can be corrected by the distilled data from the other. Moreover, we cluster the “annotator groups” who share similar expertise so that their confusion matrices could be corrected together. In this way, the expertise of the annotators, especially of those who provide seldom labels, could be better captured. Remarkably, we point out that the annotation sparsity not only means the average number of labels is low, but also there are always some annotators who provide very few labels, which is neglected by previous works when constructing synthetic crowd-sourcing annotations. Based on that, we propose to use Beta distribution to control the generation of the crowd-sourcing labels so that the synthetic annotations could be more consistent with the real-world ones. Extensive experiments are conducted on two types of synthetic datasets and three real-world datasets, the results of which demonstrate that CCC significantly outperforms state-of-the-art approaches.
arxiv情報
著者 | Hansong Zhang,Shikun Li,Dan Zeng,Chenggang Yan,Shiming Ge |
発行日 | 2023-12-26 07:35:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google