ELFS: Enhancing Label-Free Coreset Selection via Clustering-based Pseudo-Labeling

要約

最新の深層学習パイプラインには人間による注釈が付けられた高品質のデータが不可欠ですが、人間による注釈のプロセスにはコストと時間がかかります。
人間によるラベル付けの予算が限られている場合、ラベル付け用に有益で代表的なデータ サブセットを選択することで、人間によるアノテーションの労力を大幅に削減できます。
優れたパフォーマンスを誇る最先端 (SOTA) コアセット選択手法では、データセット全体に対するグラウンド トゥルース ラベルが必要であり、人間によるラベル付けの負担を軽減できません。
一方、SOTA ラベルフリーのコアセット選択方法は、ジオメトリベースのスコアが低いため、パフォーマンスが劣ります。
この論文では、新しいラベルフリーのコアセット選択方法である ELFS を紹介します。
ELFS はディープ クラスタリングを採用し、グラウンド トゥルース ラベルを使用せずにデータ難易度スコアを推定します。
さらに、ELFS は、シンプルだが効果的なダブルエンド プルーニング手法を使用して、計算されたスコアのバイアスを軽減し、選択したコアセットのパフォーマンスをさらに向上させます。
私たちは 5 つのビジョンベンチマークで ELFS を評価し、ELFS が常に SOTA ラベルフリーのベースラインを上回るパフォーマンスを示しています。
たとえば、枝刈り率が 90% の場合、ELFS は最もパフォーマンスの高いベースラインを CIFAR10 で 5.3%、CIFAR100 で 7.1% 上回ります。
さらに、ELFS は、CIFAR10 および ImageNet-1K 上で低いプルーニング レート (例: 30% および 50%) で教師ありコアセット選択と同等のパフォーマンスを達成します。

要約(オリジナル)

High-quality human-annotated data is crucial for modern deep learning pipelines, yet the human annotation process is both costly and time-consuming. Given a constrained human labeling budget, selecting an informative and representative data subset for labeling can significantly reduce human annotation effort. Well-performing state-of-the-art (SOTA) coreset selection methods require ground-truth labels over the whole dataset, failing to reduce the human labeling burden. Meanwhile, SOTA label-free coreset selection methods deliver inferior performance due to poor geometry-based scores. In this paper, we introduce ELFS, a novel label-free coreset selection method. ELFS employs deep clustering to estimate data difficulty scores without ground-truth labels. Furthermore, ELFS uses a simple but effective double-end pruning method to mitigate bias on calculated scores, which further improves the performance on selected coresets. We evaluate ELFS on five vision benchmarks and show that ELFS consistently outperforms SOTA label-free baselines. For instance, at a 90% pruning rate, ELFS surpasses the best-performing baseline by 5.3% on CIFAR10 and 7.1% on CIFAR100. Moreover, ELFS even achieves comparable performance to supervised coreset selection at low pruning rates (e.g., 30% and 50%) on CIFAR10 and ImageNet-1K.

arxiv情報

著者 Haizhong Zheng,Elisa Tsai,Yifu Lu,Jiachen Sun,Brian R. Bartoldson,Bhavya Kailkhura,Atul Prakash
発行日 2024-06-06 17:23:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク