Pseudo-labeling for Kernel Ridge Regression under Covariate Shift

要約

共変量シフト下でのカーネルリッジ回帰への原則的なアプローチを開発および分析します。
目標は、そこからのラベル付けされていないデータと、異なる特徴分布を持つ可能性のあるラベル付けされたデータに基づいて、ターゲット分布に対して平均二乗誤差が小さい回帰関数を学習することです。
ラベル付けされたデータを2つのサブセットに分割し、それらに対してカーネルリッジ回帰を個別に実行して、候補モデルのコレクションと代入モデルを取得することを提案します。
後者を使用して不足しているラベルを埋め、それに応じて最適な候補モデルを選択します。
私たちの非漸近的な過剰リスク限界は、非常に一般的なシナリオでは、推定量がターゲット分布の構造と共変量シフトに適応することを示しています。
これは、対数係数までのミニマックス最適エラー率を達成します。
モデル選択で疑似ラベルを使用しても、大きな悪影響はありません。

要約(オリジナル)

We develop and analyze a principled approach to kernel ridge regression under covariate shift. The goal is to learn a regression function with small mean squared error over a target distribution, based on unlabeled data from there and labeled data that may have a different feature distribution. We propose to split the labeled data into two subsets and conduct kernel ridge regression on them separately to obtain a collection of candidate models and an imputation model. We use the latter to fill the missing labels and then select the best candidate model accordingly. Our non-asymptotic excess risk bounds show that in quite general scenarios, our estimator adapts to the structure of the target distribution as well as the covariate shift. It achieves the minimax optimal error rate up to a logarithmic factor. The use of pseudo-labels in model selection does not have major negative impacts.

arxiv情報

著者 Kaizheng Wang
発行日 2023-02-20 18:46:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 62G05, 62J07, cs.LG, math.ST, stat.ME, stat.ML, stat.TH パーマリンク