要約
コンピューター ビジョンで最も一般的に使用されるベンチマーク データセットには、無関係な画像、重複に近い画像、ラベル エラーが含まれています。
したがって、これらのベンチマークでのモデルのパフォーマンスは、汎化能力の正確な推定値ではない可能性があります。
これは、一般にデータセットが小さく、リスクが高く、アノテーション プロセスが高価でエラーが発生しやすい医療用コンピューター ビジョンにおいて特に深刻な懸念事項です。
この論文では、自己監視で学習した潜在空間を利用して画像データセットをクリーンアップする一般的な手順である SelfClean を提案します。
自己教師あり学習に依存することで、私たちのアプローチはデータの本質的な特性に焦点を当て、アノテーションのバイアスを回避します。
私たちは、データセットのクリーニングを、人間の専門家が大幅に軽減された労力で意思決定できる一連のランキング問題、またはスコア分布に基づいて完全に自動化できる一連のスコアリング問題のいずれかとして定式化します。
合成ノイズで強化された一般的なコンピューター ビジョン ベンチマークで SelfClean を他のアルゴリズムと比較し、無関係な画像、重複に近い画像、ラベル エラーの検出における最先端のパフォーマンスを実証します。
さらに、複数の画像データセットに本手法を適用し、評価信頼性の向上を確認しました。
要約(オリジナル)
Most commonly used benchmark datasets for computer vision contain irrelevant images, near duplicates, and label errors. Consequently, model performance on these benchmarks may not be an accurate estimate of generalization ability. This is a particularly acute concern in computer vision for medicine where datasets are typically small, stakes are high, and annotation processes are expensive and error-prone. In this paper, we propose SelfClean, a general procedure to clean up image datasets exploiting a latent space learned with self-supervision. By relying on self-supervised learning, our approach focuses on intrinsic properties of the data and avoids annotation biases. We formulate dataset cleaning as either a set of ranking problems, where human experts can make decisions with significantly reduced effort, or a set of scoring problems, where decisions can be fully automated based on score distributions. We compare SelfClean against other algorithms on common computer vision benchmarks enhanced with synthetic noise and demonstrate state-of-the-art performance on detecting irrelevant images, near duplicates, and label errors. In addition, we apply our method to multiple image datasets and confirm an improvement in evaluation reliability.
arxiv情報
著者 | Fabian Gröger,Simone Lionetti,Philippe Gottfrois,Alvaro Gonzalez-Jimenez,Ludovic Amruthalingam,Labelling Consortium,Matthew Groh,Alexander A. Navarini,Marc Pouly |
発行日 | 2023-05-26 15:57:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google