Single-sample versus case-control sampling scheme for Positive Unlabeled data: the story of two scenarios


本論文では、正のラベルなしデータに対するERM(Empirical Risk Minimization:経験的リスク最小化)に基づく分類器の性能が、単一サンプルシナリオに適用した場合に著しく悪化する可能性があることを論じる。本論文では、ERMの挙動がシナリオに依存する理由を明らかにする。また、症例対照データ用に設計された一般的な非負リスク分類器の単一標本ケースアナログモデルを紹介し、その性能をオリジナル提案と比較する。両者の間には、特にオブザベーションの半分以上が正である場合に、有意な差が生じることを示す。症例対照データ用に設計されたERM最小化器を単一標本データに適用した場合の逆のケースも検討し、同様の結論を導く。シナリオの違いを考慮に入れるには、Empirical Riskの定義を変更する必要があります。


In the paper we argue that performance of the classifiers based on Empirical Risk Minimization (ERM) for positive unlabeled data, which are designed for case-control sampling scheme may significantly deteriorate when applied to a single-sample scenario. We reveal why their behavior depends, in all but very specific cases, on the scenario. Also, we introduce a single-sample case analogue of the popular non-negative risk classifier designed for case-control data and compare its performance with the original proposal. We show that the significant differences occur between them, especiall when half or more positive of observations are labeled. The opposite case when ERM minimizer designed for the case-control case is applied for single-sample data is also considered and similar conclusions are drawn. Taking into account difference of scenarios requires a sole, but crucial, change in the definition of the Empirical Risk.


著者 Jan Mielniczuk,Adam Wawrzeńczyk
発行日 2023-12-04 18:13:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, DeepL

カテゴリー: cs.LG パーマリンク