Category-wise Fine-Tuning: Resisting Incorrect Pseudo-Labels in Multi-Label Image Classification with Partial Labels

要約

大規模な画像データセットは部分的にラベル付けされていることがよくあり、各画像についてわかっているカテゴリのラベルはわずか数個だけです。
追加のトレーニング信号を取得するために未知のラベルに疑似ラベルを割り当てることは、深層分類モデルをトレーニングする場合に普及しています。
ただし、一部の疑似ラベルは必然的に不正確になり、モデル分類パフォーマンスの顕著な低下につながります。
この論文では、間違った擬似ラベルによって引き起こされるモデルの不正確さを軽減することを目的として、カテゴリーごとの微調整 (CFT) と呼ばれる新しい方法を提案します。
特に、CFT は、擬似ラベルのない既知のラベルを使用して、トレーニングされたモデルのロジスティック回帰を個別に微調整し、各カテゴリのモデル予測を調整します。
深いモデルのトレーニングにはほとんど使用されない遺伝的アルゴリズムも、分類パフォーマンスを直接最大化するために CFT で利用されます。
CFT は、モデルを最初からトレーニングするほとんどの既存の方法とは異なり、十分にトレーニングされたモデルに適用されます。
したがって、CFT は一般的であり、広範な実験を通じて実証されているように、さまざまな方法やスキームでトレーニングされたモデルと互換性があります。
CFT では、消費者向けグレードの GPU を使用したキャリブレーションに各カテゴリで数秒しかかかりません。
当社は、CheXpert 胸部 X 線競合データセット (アンサンブル mAUC 93.33%、単一モデル 91.82%)、部分的にラベル付けされた MS-COCO (平均 mAP 83.69%)、および Open を含む 3 つのベンチマーク データセットで最先端の結果を達成しています。
Image V3 (mAP 85.31%) は、以前の最高のパフォーマンスをそれぞれ 0.28%、2.21%、2.50%、0.91% 上回りました。
CheXpert の単一モデルは競技サーバーによって正式に評価され、結果の正確性が裏付けられています。
優れた結果と一般化可能性は、CFT が分類モデル開発にとって実質的かつ普及する可能性があることを示しています。
コードは https://github.com/maxium0526/category-wise-fine-tuning から入手できます。

要約(オリジナル)

Large-scale image datasets are often partially labeled, where only a few categories’ labels are known for each image. Assigning pseudo-labels to unknown labels to gain additional training signals has become prevalent for training deep classification models. However, some pseudo-labels are inevitably incorrect, leading to a notable decline in the model classification performance. In this paper, we propose a novel method called Category-wise Fine-Tuning (CFT), aiming to reduce model inaccuracies caused by the wrong pseudo-labels. In particular, CFT employs known labels without pseudo-labels to fine-tune the logistic regressions of trained models individually to calibrate each category’s model predictions. Genetic Algorithm, seldom used for training deep models, is also utilized in CFT to maximize the classification performance directly. CFT is applied to well-trained models, unlike most existing methods that train models from scratch. Hence, CFT is general and compatible with models trained with different methods and schemes, as demonstrated through extensive experiments. CFT requires only a few seconds for each category for calibration with consumer-grade GPUs. We achieve state-of-the-art results on three benchmarking datasets, including the CheXpert chest X-ray competition dataset (ensemble mAUC 93.33%, single model 91.82%), partially labeled MS-COCO (average mAP 83.69%), and Open Image V3 (mAP 85.31%), outperforming the previous bests by 0.28%, 2.21%, 2.50%, and 0.91%, respectively. The single model on CheXpert has been officially evaluated by the competition server, endorsing the correctness of the result. The outstanding results and generalizability indicate that CFT could be substantial and prevalent for classification model development. Code is available at: https://github.com/maxium0526/category-wise-fine-tuning.

arxiv情報

著者 Chak Fong Chong,Xinyi Fang,Jielong Guo,Yapeng Wang,Wei Ke,Chan-Tong Lam,Sio-Kei Im
発行日 2024-01-30 13:22:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク