Uncertainty-aware Sampling for Long-tailed Semi-supervised Learning

要約

不均衡なクラスを使用した半教師あり学習の場合、データのロングテール分布により、支配的なクラスに対するモデルの予測バイアスが増大し、頻度の低いクラスのパフォーマンスが損なわれます。
既存の方法は、モデルのトレーニングに十分信頼できる擬似ラベルを確実に選択するという課題にも直面しており、さまざまなトレーニング段階に基づいて、より信頼性の高い擬似ラベルの選択を調整するメカニズムが不足しています。
この問題を軽減するために、尾部クラスのモデルのパフォーマンスがトレーニング段階ごとに異なることを考慮して、擬似ラベル サンプリングのモデリング プロセスに不確実性を導入します。
たとえば、モデル トレーニングの初期段階では、モデルの予測精度が限られているため、不確実な擬似ラベルの割合が高くなります。
これに対抗するために、不確実性を考慮した動的しきい値選択 (UDTS) アプローチを提案します。
このアプローチにより、モデルはさまざまなトレーニング段階で擬似ラベルの不確実性を認識できるため、さまざまなクラスの選択閾値を適応的に調整できます。
ベースライン手法である FixMatch などの他の手法と比較して、UDTS は自然シーンの画像データセット CIFAR10-LT、CIFAR100-LT、STL-10 で少なくとも約 5.26%、1.75%、9.96%、1.28% の精度の向上を達成します。
-LT、および医療画像データセット TissueMNIST です。
UDTS のソース コードは、https://github.com/yangk/UDTS で公開されています。

要約(オリジナル)

For semi-supervised learning with imbalance classes, the long-tailed distribution of data will increase the model prediction bias toward dominant classes, undermining performance on less frequent classes. Existing methods also face challenges in ensuring the selection of sufficiently reliable pseudo-labels for model training and there is a lack of mechanisms to adjust the selection of more reliable pseudo-labels based on different training stages. To mitigate this issue, we introduce uncertainty into the modeling process for pseudo-label sampling, taking into account that the model performance on the tailed classes varies over different training stages. For example, at the early stage of model training, the limited predictive accuracy of model results in a higher rate of uncertain pseudo-labels. To counter this, we propose an Uncertainty-Aware Dynamic Threshold Selection (UDTS) approach. This approach allows the model to perceive the uncertainty of pseudo-labels at different training stages, thereby adaptively adjusting the selection thresholds for different classes. Compared to other methods such as the baseline method FixMatch, UDTS achieves an increase in accuracy of at least approximately 5.26%, 1.75%, 9.96%, and 1.28% on the natural scene image datasets CIFAR10-LT, CIFAR100-LT, STL-10-LT, and the medical image dataset TissueMNIST, respectively. The source code of UDTS is publicly available at: https://github.com/yangk/UDTS.

arxiv情報

著者 Kuo Yang,Duo Li,Menghan Hu,Guangtao Zhai,Xiaokang Yang,Xiao-Ping Zhang
発行日 2024-01-09 08:59:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク