Scalable and hyper-parameter-free non-parametric covariate shift adaptation with conditional sampling

要約

既存の共変量シフト適応法の多くは、ソース分布とターゲット分布の間のギャップを軽減するために、リスク推定に使用されるサンプルの重みを推定します。
ただし、最適な重みをノンパラメトリックに推定するには、通常、最終的なパフォーマンスにとって重要な、計算コストのかかるハイパーパラメータ調整が必要になります。
この論文では、重みの推定を回避し、調整するハイパーパラメータを必要としない、共変量シフト適応への新しいノンパラメトリックアプローチを提案します。
私たちの基本的なアイデアは、ソース データセット内の $k$ 近傍に従って、ラベルのないターゲット データにラベルを付けることです。
私たちの分析は、$k = 1$ を設定することが最適な選択であることを示しています。
このプロパティのおかげで、他のノンパラメトリックな方法とは異なり、ハイパーパラメーターを調整する必要がありません。
さらに、私たちの方法は、私たちの知る限り文献で初めて、理論的保証を備えたサンプルサイズでの実行時間を準線形に達成します。
私たちの結果には、ターゲット データの同時確率分布を推定するための急激な収束率が含まれます。
特に、推定量の分散は、ノンパラメトリックな性質にもかかわらず、標準的なパラメトリック推定と同じ収束率を示します。
数値実験の結果、提案した手法が最先端の手法と同等の精度で実行時間を大幅に短縮できることがわかりました。

要約(オリジナル)

Many existing covariate shift adaptation methods estimate sample weights to be used in the risk estimation in order to mitigate the gap between the source and the target distribution. However, non-parametrically estimating the optimal weights typically involves computationally expensive hyper-parameter tuning that is crucial to the final performance. In this paper, we propose a new non-parametric approach to covariate shift adaptation which avoids estimating weights and has no hyper-parameter to be tuned. Our basic idea is to label unlabeled target data according to the $k$-nearest neighbors in the source dataset. Our analysis indicates that setting $k = 1$ is an optimal choice. Thanks to this property, there is no need to tune any hyper-parameters, unlike other non-parametric methods. Moreover, our method achieves a running time quasi-linear in the sample size with a theoretical guarantee, for the first time in the literature to the best of our knowledge. Our results include sharp rates of convergence for estimating the joint probability distribution of the target data. In particular, the variance of our estimators has the same rate of convergence as for standard parametric estimation despite their non-parametric nature. Our numerical experiments show that proposed method brings drastic reduction in the running time with accuracy comparable to that of the state-of-the-art methods.

arxiv情報

著者 François Portier,Lionel Truquet,Ikko Yamane
発行日 2023-12-15 17:28:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク