要約
ソース母集団のそれとは異なる可能性のある非標識ターゲットサンプルのためのクラスの推定を研究します。
ソースデータの場合、ポジティブクラスと全母集団からのサンプルのみが利用可能であると想定されています(PU学習シナリオ)。
事後確率の推定を回避し、単純な幾何学的解釈を持っているクラス事前の新しい直接推定器を導入します。
これは、カーネルの埋め込みと一緒に分布マッチング手法に基づいており、最適化タスクの明示的なソリューションとして取得されます。
私たちは、その漸近的な一貫性と、実際に計算可能な未知の事前からの偏差に伴う非症状の結合を確立します。
合成データおよび実際のデータの有限サンプル行動を研究し、提案がソースの大規模な値に適したバージョンとともに、競合他社よりもPARまたはそれ以上に機能することを示しています。
要約(オリジナル)
We study estimation of class prior for unlabeled target samples which is possibly different from that of source population. It is assumed that for the source data only samples from positive class and from the whole population are available (PU learning scenario). We introduce a novel direct estimator of class prior which avoids estimation of posterior probabilities and has a simple geometric interpretation. It is based on a distribution matching technique together with kernel embedding and is obtained as an explicit solution to an optimisation task. We establish its asymptotic consistency as well as a non-asymptotic bound on its deviation from the unknown prior, which is calculable in practice. We study finite sample behaviour for synthetic and real data and show that the proposal, together with a suitably modified version for large values of source prior, works on par or better than its competitors.
arxiv情報
| 著者 | Jan Mielniczuk,Wojciech Rejchel,Paweł Teisseyre |
| 発行日 | 2025-02-28 16:12:53+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google