Probability-density-aware Semi-supervised Learning

要約

半教師あり学習 (SSL) では、隣接ポイントが同じカテゴリに属し (隣接仮定)、異なるクラスター内のポイントがさまざまなカテゴリに属していると仮定します (クラスター仮定)。
既存の方法は通常、クラスターの仮定を無視して、類似の近傍点を取得するために類似性の尺度に依存するため、ラベルのない情報を十分かつ効果的に利用できない可能性があります。
この論文では、まず SSL における確率密度の重要な役割について体系的な調査を提供し、クラスターの仮定に対する強固な理論的基礎を築きます。
この目的を達成するために、隣接点間の類似性を識別するために確率密度認識尺度 (PM) を導入します。
ラベル伝播をさらに改善するために、ラベル伝播におけるクラスター仮定を十分に考慮するために、確率密度を考慮した測定ラベル伝播 (PMLP) アルゴリズムも設計します。
最後に重要なことですが、従来の擬似ラベリングは PMLP の特定のケースと見なすことができることを証明し、これにより PMLP の優れたパフォーマンスの包括的な理論的理解が得られます。
広範な実験により、PMLP が他の最近の方法と比較して優れたパフォーマンスを達成することが実証されています。

要約(オリジナル)

Semi-supervised learning (SSL) assumes that neighbor points lie in the same category (neighbor assumption), and points in different clusters belong to various categories (cluster assumption). Existing methods usually rely on similarity measures to retrieve the similar neighbor points, ignoring cluster assumption, which may not utilize unlabeled information sufficiently and effectively. This paper first provides a systematical investigation into the significant role of probability density in SSL and lays a solid theoretical foundation for cluster assumption. To this end, we introduce a Probability-Density-Aware Measure (PM) to discern the similarity between neighbor points. To further improve Label Propagation, we also design a Probability-Density-Aware Measure Label Propagation (PMLP) algorithm to fully consider the cluster assumption in label propagation. Last but not least, we prove that traditional pseudo-labeling could be viewed as a particular case of PMLP, which provides a comprehensive theoretical understanding of PMLP’s superior performance. Extensive experiments demonstrate that PMLP achieves outstanding performance compared with other recent methods.

arxiv情報

著者 Shuyang Liu,Ruiqiu Zheng,Yunhang Shen,Ke Li,Xing Sun,Zhou Yu,Shaohui Lin
発行日 2025-01-07 17:23:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク