Exploration and Exploitation of Unlabeled Data for Open-Set Semi-Supervised Learning

要約

このペーパーでは、オープンセット SSL と呼ばれる半教師あり学習 (SSL) における複雑だが実用的なシナリオについて説明します。このシナリオでは、ラベルのないデータに分布内 (ID) サンプルと分布外 (OOD) サンプルの両方が含まれます。
ID サンプルのみが有用であると考えられ、トレーニング中に OOD サンプルを完全に除外することを目的とした以前の方法とは異なり、ID サンプルと OOD サンプルの両方の探索と活用が SSL に利益をもたらす可能性があると私たちは主張します。
私たちの主張を裏付けるために、i) プロトタイプベースのクラスタリングおよび識別アルゴリズムを提案します。このアルゴリズムは、特徴レベルでサンプル間の固有の類似性と差異を調査し、事前に定義されたいくつかの ID および OOD プロトタイプを中心に効果的にクラスター化することで、特徴学習を強化し、ID/OOD を促進します。
身元;
ii) SSL に対する各 ID および OOD サンプルの重要度の違いを利用する重要度ベースのサンプリング方法を提案します。これにより、サンプリングのバイアスが軽減され、トレーニングが改善されます。
私たちが提案する手法は、いくつかの困難なベンチマークで最先端を達成し、ラベルなしデータに ID サンプルがまったく存在しない場合でも、既存の SSL 手法を改善します。

要約(オリジナル)

In this paper, we address a complex but practical scenario in semi-supervised learning (SSL) named open-set SSL, where unlabeled data contain both in-distribution (ID) and out-of-distribution (OOD) samples. Unlike previous methods that only consider ID samples to be useful and aim to filter out OOD ones completely during training, we argue that the exploration and exploitation of both ID and OOD samples can benefit SSL. To support our claim, i) we propose a prototype-based clustering and identification algorithm that explores the inherent similarity and difference among samples at feature level and effectively cluster them around several predefined ID and OOD prototypes, thereby enhancing feature learning and facilitating ID/OOD identification; ii) we propose an importance-based sampling method that exploits the difference in importance of each ID and OOD sample to SSL, thereby reducing the sampling bias and improving the training. Our proposed method achieves state-of-the-art in several challenging benchmarks, and improves upon existing SSL methods even when ID samples are totally absent in unlabeled data.

arxiv情報

著者 Ganlong Zhao,Guanbin Li,Yipeng Qin,Jinjin Zhang,Zhenhua Chai,Xiaolin Wei,Liang Lin,Yizhou Yu
発行日 2023-06-30 14:25:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク