On Efficient and Statistical Quality Estimation for Data Annotation

要約

注釈付きのデータセットは、教師あり機械学習モデルをトレーニング、評価、比較、本番化するために不可欠な要素です。
したがって、注釈が高品質であることが不可欠です。
これらを作成するには、適切な品質管理と、それによる信頼できる品質推定が必要です。
その後、アノテーション処理中に品質が不十分な場合は、改善するための修正措置を講じることができます。
品質の推定は、多くの場合、専門家がインスタンスに正しいか間違っているかを手動でラベル付けすることによって実行されます。
ただし、すべてのアノテーション付きインスタンスをチェックするとコストがかかる傾向があります。
したがって、実際には、通常はサブセットのみが検査されます。
サイズはほとんどの場合、正当性や統計的検出力を考慮せずに選択され、比較的小さいことがほとんどです。
ただし、小さなサンプル サイズに基づいて推定すると、誤り率の値が不正確になる可能性があります。
不必要に大きなサンプルサイズを使用するとコストがかかりますが、より多くのアノテーションなどに費やしたほうがよいでしょう。
したがって、最初に、アノテーションエラー率を推定するために必要な最小サンプルサイズを見つけるために信頼区間を使用する方法を詳細に説明します。
次に、誤り率推定の代替として受け入れサンプリングを適用することを提案します。受け入れサンプリングにより、同じ統計的保証を提供しながら、必要なサンプル サイズを最大 50% 削減できることを示します。

要約(オリジナル)

Annotated datasets are an essential ingredient to train, evaluate, compare and productionalize supervised machine learning models. It is therefore imperative that annotations are of high quality. For their creation, good quality management and thereby reliable quality estimates are needed. Then, if quality is insufficient during the annotation process, rectifying measures can be taken to improve it. Quality estimation is often performed by having experts manually label instances as correct or incorrect. But checking all annotated instances tends to be expensive. Therefore, in practice, usually only subsets are inspected; sizes are chosen mostly without justification or regard to statistical power and more often than not, are relatively small. Basing estimates on small sample sizes, however, can lead to imprecise values for the error rate. Using unnecessarily large sample sizes costs money that could be better spent, for instance on more annotations. Therefore, we first describe in detail how to use confidence intervals for finding the minimal sample size needed to estimate the annotation error rate. Then, we propose applying acceptance sampling as an alternative to error rate estimation We show that acceptance sampling can reduce the required sample sizes up to 50% while providing the same statistical guarantees.

arxiv情報

著者 Jan-Christoph Klie,Rahul Nair,Juan Haladjian,Marc Kirchner
発行日 2024-05-20 09:57:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク