要約
数量化学習は、ラベルシフトの下での目標ラベル分布を推定するタスクを扱う。本論文ではまず、先行文献で紹介されている様々な推定量を特定のインスタンスとして復元する、統一的なフレームワークである分布特徴マッチング(DFM)を提示する。DFM手法の一般的な性能境界を導出し、いくつかの重要な点で、特定のケースで導出された従来の境界を改善する。次に、この解析を拡張し、厳密なラベルシフト仮説から外れた場合の、特に未知の分布によるターゲットの汚染の場合の、誤仕様設定におけるDFM手続きの頑健性を研究する。これらの理論的知見は、シミュレートされたデータセットと実世界のデータセットを用いた詳細な数値研究によって確認された。また、ランダムフーリエ特徴原理を用いた、効率的でスケーラブルかつ頑健なカーネルベースのDFMを紹介する。
要約(オリジナル)
Quantification learning deals with the task of estimating the target label distribution under label shift. In this paper, we first present a unifying framework, distribution feature matching (DFM), that recovers as particular instances various estimators introduced in previous literature. We derive a general performance bound for DFM procedures, improving in several key aspects upon previous bounds derived in particular cases. We then extend this analysis to study robustness of DFM procedures in the misspecified setting under departure from the exact label shift hypothesis, in particular in the case of contamination of the target by an unknown distribution. These theoretical findings are confirmed by a detailed numerical study on simulated and real-world datasets. We also introduce an efficient, scalable and robust version of kernel-based DFM using the Random Fourier Feature principle.
arxiv情報
著者 | Bastien Dussap,Gilles Blanchard,Badr-Eddine Chérief-Abdellatif |
発行日 | 2023-07-02 19:43:53+00:00 |
arxivサイト | arxiv_id(pdf) |