Class-Distribution-Aware Pseudo Labeling for Semi-Supervised Multi-Label Learning

要約

タイトル:セミ・スーパーバイズ・マルチ・ラベル学習のためのクラス・ディストリビューション・アウェアな擬似ラベリング

要旨:
-擬似ラベリングは、ラベルのないデータの情報を活用するための人気がある効果的な方法である。
-伝統的なインスタンス・アウェアな擬似ラベリング方法では、予測確率に基づいて各無ラベル・インスタンスに擬似ラベルが割り当てられるが、真のラベル数が不明なため、セミ・スーパーバイズ・マルチ・ラベル学習(SSMLL)シナリオでは、偽陽性ラベルを導入する危険性があるか、真の陽性ラベルを無視するリスクがある。
-この論文では、クラス・ディストリビューション・アウェアな擬似ラベリング(CAP)によって、SSMLL問題を解決することを提案する。これは、擬似ラベルのクラス分布が真のラベル分布に近似するようにするものである。具体的には、クラス・アウェアな閾値を設計し、各クラスの擬似ラベルの数を制御する規則化された学習フレームワークを構築する。
-ラベル付きと無ラベルの例が同じ分布に従ってサンプリングされると仮定すると、実験的なクラス分布を活用して閾値を決定することができる。
-理論的には、提案された方法の汎化性能は擬似ラベリングのエラーに依存し、CAP戦略によって大幅に減らすことができることを示している。
-複数のベンチマークデータセットに対する広範な実験結果が、CAPが効果的にSSMLL問題を解決できることを検証している。

要約(オリジナル)

Pseudo labeling is a popular and effective method to leverage the information of unlabeled data. Conventional instance-aware pseudo labeling methods often assign each unlabeled instance with a pseudo label based on its predicted probabilities. However, due to the unknown number of true labels, these methods cannot generalize well to semi-supervised multi-label learning (SSMLL) scenarios, since they would suffer from the risk of either introducing false positive labels or neglecting true positive ones. In this paper, we propose to solve the SSMLL problems by performing Class-distribution-Aware Pseudo labeling (CAP), which encourages the class distribution of pseudo labels to approximate the true one. Specifically, we design a regularized learning framework consisting of the class-aware thresholds to control the number of pseudo labels for each class. Given that the labeled and unlabeled examples are sampled according to the same distribution, we determine the thresholds by exploiting the empirical class distribution, which can be treated as a tight approximation to the true one. Theoretically, we show that the generalization performance of the proposed method is dependent on the pseudo labeling error, which can be significantly reduced by the CAP strategy. Extensive experimental results on multiple benchmark datasets validate that CAP can effectively solve the SSMLL problems.

arxiv情報

著者 Ming-Kun Xie,Jia-Hao Xiao,Gang Niu,Masashi Sugiyama,Sheng-Jun Huang
発行日 2023-05-04 12:52:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG パーマリンク