A Decade’s Battle on Dataset Bias: Are We There Yet?


10年前にTorralba & Efros (2011)によって提案された「データセット分類」実験を、大規模かつ多様で、できれば偏りの少ないデータセットと、より高性能なニューラルネットワークアーキテクチャを持つ新しい時代に再検討する。例えば、YFCCデータセット、CCデータセット、DataCompデータセットで構成される3元分類問題に対して、ホールドアウト検証データで84.7%の精度を報告した。我々の更なる実験により、このようなデータセット分類器は、記憶では説明できない、一般化可能で転送可能な意味的特徴を学習できることが示された。我々の発見が、データセットのバイアスに関わる問題を再考するきっかけとなることを期待している。


We revisit the ‘dataset classification’ experiment suggested by Torralba & Efros (2011) a decade ago, in the new era with large-scale, diverse, and hopefully less biased datasets as well as more capable neural network architectures. Surprisingly, we observe that modern neural networks can achieve excellent accuracy in classifying which dataset an image is from: e.g., we report 84.7% accuracy on held-out validation data for the three-way classification problem consisting of the YFCC, CC, and DataComp datasets. Our further experiments show that such a dataset classifier could learn semantic features that are generalizable and transferable, which cannot be explained by memorization. We hope our discovery will inspire the community to rethink issues involving dataset bias.


著者 Zhuang Liu,Kaiming He
発行日 2025-03-03 12:01:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク