要約
従来の半教師あり学習(SSL)メソッドの機能は、(1)クラスの不均衡、および(2)ラベル付きデータとラベルなしデータ間のクラス分布の不一致によって引き起こされる、大幅にバイアスされた疑似ラベルのため、実際のアプリケーションからはほど遠いものです。
このホワイトペーパーでは、このような比較的十分に検討されていない問題について説明します。
最初に、類似性ベースの分類器からのセマンティック疑似ラベルを線形分類器からの線形疑似ラベルにクラス適応的にブレンドする一般的な疑似ラベル付けフレームワークを提案します。
バイアスの条件。
さらに、分類器からの偏った予測を減らすためにバランスの取れた特徴表現を確立するために、新しいセマンティックアラインメント損失を導入します。
フレームワーク全体を、Distribution-Aware Semantics-Oriented(DASO)疑似ラベルと呼びます。
CIFAR10 / 100-LT、STL10-LT、およびオープンセットクラスの大規模なロングテールセミアベニューなど、さまざまな不均衡なベンチマークで広範な実験を実施し、提案されたDASOフレームワークがSSL学習者を確実に改善することを実証します
特に(1)クラスの不均衡と(2)分布の不一致の両方が支配的である場合、ラベルのないデータを使用します。
要約(オリジナル)
The capability of the traditional semi-supervised learning (SSL) methods is far from real-world application due to severely biased pseudo-labels caused by (1) class imbalance and (2) class distribution mismatch between labeled and unlabeled data. This paper addresses such a relatively under-explored problem. First, we propose a general pseudo-labeling framework that class-adaptively blends the semantic pseudo-label from a similarity-based classifier to the linear one from the linear classifier, after making the observation that both types of pseudo-labels have complementary properties in terms of bias. We further introduce a novel semantic alignment loss to establish balanced feature representation to reduce the biased predictions from the classifier. We term the whole framework as Distribution-Aware Semantics-Oriented (DASO) Pseudo-label. We conduct extensive experiments in a wide range of imbalanced benchmarks: CIFAR10/100-LT, STL10-LT, and large-scale long-tailed Semi-Aves with open-set class, and demonstrate that, the proposed DASO framework reliably improves SSL learners with unlabeled data especially when both (1) class imbalance and (2) distribution mismatch dominate.
arxiv情報
著者 | Youngtaek Oh,Dong-Jin Kim,In So Kweon |
発行日 | 2022-06-02 17:58:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google