Ambiguous Annotations: When is a Pedestrian not a Pedestrian?

要約

ヒューマン アノテーターによってラベル付けされたデータセットは、機械学習モデルのトレーニングとテストで広く使用されています。
近年、研究者はラベルの品質にますます注目しています。
ただし、割り当てられたラベルが正しいかどうかを客観的に判断できるとは限りません。
現在の研究では、自動運転データセットのアノテーションにおけるこの曖昧さを、データ品質の重要な側面として調査しています。
私たちの実験では、非常にあいまいなデータをトレーニングから除外すると、LAMR、精度、F1 スコアの点で最先端の歩行者検出器のモデルのパフォーマンスが向上し、それによってトレーニング時間とアノテーションのコストが節約されることがわかりました。
さらに、あいまいなインスタンスを安全に削除し、トレーニング データの代表性を確実に保持するには、調査対象のデータセットとクラスのプロパティを理解することが重要であることを示します。

要約(オリジナル)

Datasets labelled by human annotators are widely used in the training and testing of machine learning models. In recent years, researchers are increasingly paying attention to label quality. However, it is not always possible to objectively determine whether an assigned label is correct or not. The present work investigates this ambiguity in the annotation of autonomous driving datasets as an important dimension of data quality. Our experiments show that excluding highly ambiguous data from the training improves model performance of a state-of-the-art pedestrian detector in terms of LAMR, precision and F1 score, thereby saving training time and annotation costs. Furthermore, we demonstrate that, in order to safely remove ambiguous instances and ensure the retained representativeness of the training data, an understanding of the properties of the dataset and class under investigation is crucial.

arxiv情報

著者 Luisa Schwirten,Jannes Scholz,Daniel Kondermann,Janis Keuper
発行日 2024-05-14 17:44:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク