要約
ラベルなしデータでの自己教師あり事前トレーニングとそれに続くラベル付きデータでの教師あり微調整は、限定されたラベル付きサンプルから学習するための一般的なパラダイムです。
このパラダイムを古典的なラベルなしポジティブ (PU) 設定に拡張します。この設定では、少数のラベル付きポジティブ サンプルと、(多くの場合) 大量のラベルなしサンプル (ポジティブまたはネガティブの可能性があります) のみを与えられたバイナリ分類器を学習することがタスクとなります。
まず、対照的な損失の標準的な infoNCE ファミリを PU 設定に単純に拡張することを提案します。
そして、既存の教師なしアプローチおよび教師ありアプローチと比較して、これが優れた表現を学習することを示します。
次に、新しい PU 固有のクラスタリング スキームを使用して、ラベルのないサンプルを疑似ラベルする簡単な方法論を開発します。
これらの疑似ラベルを使用して、最終的な (正と負の) 分類器をトレーニングできます。
私たちの手法は、いくつかの標準的な PU ベンチマーク データセットに対して、最先端の PU 手法よりも優れたパフォーマンスを示しますが、事前のクラスの事前知識 (他の PU 手法では一般的な仮定です) を必要としません。
また、私たちの方法を動機付ける簡単な理論分析も提供します。
要約(オリジナル)
Self-supervised pretraining on unlabeled data followed by supervised fine-tuning on labeled data is a popular paradigm for learning from limited labeled examples. We extend this paradigm to the classical positive unlabeled (PU) setting, where the task is to learn a binary classifier given only a few labeled positive samples, and (often) a large amount of unlabeled samples (which could be positive or negative). We first propose a simple extension of standard infoNCE family of contrastive losses, to the PU setting; and show that this learns superior representations, as compared to existing unsupervised and supervised approaches. We then develop a simple methodology to pseudo-label the unlabeled samples using a new PU-specific clustering scheme; these pseudo-labels can then be used to train the final (positive vs. negative) classifier. Our method handily outperforms state-of-the-art PU methods over several standard PU benchmark datasets, while not requiring a-priori knowledge of any class prior (which is a common assumption in other PU methods). We also provide a simple theoretical analysis that motivates our methods.
arxiv情報
著者 | Anish Acharya,Sujay Sanghavi,Li Jing,Bhargav Bhushanam,Michael Rabbat,Inderjit Dhillon |
発行日 | 2023-08-15 11:13:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google