A Survey of Dataset Refinement for Problems in Computer Vision Datasets


大規模なデータセットは、コンピューター ビジョンの進歩において重要な役割を果たしてきました。
ただし、多くの場合、クラスの不均衡、ノイズの多いラベル、データセットの偏り、または高いリソース コストなどの問題が発生し、モデルのパフォーマンスが阻害され、信頼性が低下する可能性があります。
この調査では、問題のあるコンピューター ビジョン データセットのデータセット改良における最近の進歩について、包括的かつ構造化された概要を提供します。
まず、大規模なコンピュータ ビジョン データセットで遭遇するさまざまな問題を要約し、分析します。
次に、データセット改良アルゴリズムを改良プロセスに基づいて、データ サンプリング、データ サブセット選択、アクティブ ラーニングの 3 つのカテゴリに分類します。
これら 3 つのタイプのデータセット改良には、データセットの問題に対して明確な利点と欠点があり、それが特定の研究目的に適したデータ中心の手法の選択に影響を与えることを指摘します。


Large-scale datasets have played a crucial role in the advancement of computer vision. However, they often suffer from problems such as class imbalance, noisy labels, dataset bias, or high resource costs, which can inhibit model performance and reduce trustworthiness. With the advocacy of data-centric research, various data-centric solutions have been proposed to solve the dataset problems mentioned above. They improve the quality of datasets by re-organizing them, which we call dataset refinement. In this survey, we provide a comprehensive and structured overview of recent advances in dataset refinement for problematic computer vision datasets. Firstly, we summarize and analyze the various problems encountered in large-scale computer vision datasets. Then, we classify the dataset refinement algorithms into three categories based on the refinement process: data sampling, data subset selection, and active learning. In addition, we organize these dataset refinement methods according to the addressed data problems and provide a systematic comparative description. We point out that these three types of dataset refinement have distinct advantages and disadvantages for dataset problems, which informs the choice of the data-centric method appropriate to a particular research objective. Finally, we summarize the current literature and propose potential future research topics.


著者 Zhijing Wan,Zhixiang Wang,CheukTing Chung,Zheng Wang
発行日 2023-10-06 15:17:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: A.1, cs.CV パーマリンク