Generalization Beyond Data Imbalance: A Controlled Study on CLIP for Transferable Insights

要約

Web スケールのビジョン言語データセット間には、当然ながら深刻なデータの不均衡が存在します。
それにもかかわらず、事前トレーニングされたCLIPは、教師あり学習と比較してデータの不均衡に対して顕著な堅牢性を示し、一般化可能な表現の学習において顕著な効果を示していることがわかりました。
この発見の背後にある理由を調査する目的で、私たちはさまざまな基礎的要因を研究するための制御された実験を実施し、CLIP の口実タスクがトレーニング中にクラスのサブセットのみが存在する動的分類問題を形成していることを明らかにしました。
これにより、バイアスが支配的なクラスから分離され、学習信号のバランスが暗黙的に保たれます。
さらに、CLIP の堅牢性と識別可能性は、教師あり学習ではアクセスできない、より記述的な言語の監視、より大きなデータ規模、より広範なオープンワールドの概念によって向上します。
私たちの研究は、データの不均衡を超えた CLIP の一般化可能性の背後にあるメカニズムを明らかにするだけでなく、研究コミュニティに移転可能な洞察を提供します。
この結果は教師あり学習と自己教師あり学習の両方で検証されており、不均衡なデータでトレーニングされたモデルがさまざまな認識タスクで CLIP レベルのパフォーマンスを達成できるようになります。
コードとデータは https://github.com/CVMI-Lab/clip-beyond-tail で入手できます。

要約(オリジナル)

Severe data imbalance naturally exists among web-scale vision-language datasets. Despite this, we find CLIP pre-trained thereupon exhibits notable robustness to the data imbalance compared to supervised learning, and demonstrates significant effectiveness in learning generalizable representations. With an aim to investigate the reasons behind this finding, we conduct controlled experiments to study various underlying factors, and reveal that CLIP’s pretext task forms a dynamic classification problem wherein only a subset of classes is present in training. This isolates the bias from dominant classes and implicitly balances the learning signal. Furthermore, the robustness and discriminability of CLIP improve with more descriptive language supervision, larger data scale, and broader open-world concepts, which are inaccessible to supervised learning. Our study not only uncovers the mechanisms behind CLIP’s generalizability beyond data imbalance but also provides transferable insights for the research community. The findings are validated in both supervised and self-supervised learning, enabling models trained on imbalanced data to achieve CLIP-level performance on diverse recognition tasks. Code and data are available at: https://github.com/CVMI-Lab/clip-beyond-tail.

arxiv情報

著者 Xin Wen,Bingchen Zhao,Yilun Chen,Jiangmiao Pang,Xiaojuan Qi
発行日 2024-06-14 16:42:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク