Pseudo-Labeling for Kernel Ridge Regression under Covariate Shift

要約

私たちは、共変量シフトの下でカーネルリッジ回帰に対する原則的なアプローチを開発し、分析します。
目標は、そこからのラベルなしデータと、異なる特徴分布を持つ可能性のあるラベル付きデータに基づいて、ターゲット分布に対する平均二乗誤差が小さい回帰関数を学習することです。
ラベル付きデータを 2 つのサブセットに分割し、それらに対してカーネル リッジ回帰を個別に実行して、候補モデルのコレクションと代入モデルを取得することを提案します。
後者を使用して不足しているラベルを埋め、それに応じて最適な候補を選択します。
非漸近的な超過リスク限界は、推定器がターゲット分布の構造と共変量シフトの両方に効果的に適応していることを示しています。
この適応は、ターゲット回帰タスクのラベル付きソース データの値を反映する有効サンプル サイズの概念を通じて定量化されます。
私たちの推定器は、多対数因数までの最小最適誤り率を達成しており、モデル選択に擬似ラベルを使用してもパフォーマンスが大幅に妨げられないことがわかります。

要約(オリジナル)

We develop and analyze a principled approach to kernel ridge regression under covariate shift. The goal is to learn a regression function with small mean squared error over a target distribution, based on unlabeled data from there and labeled data that may have a different feature distribution. We propose to split the labeled data into two subsets, and conduct kernel ridge regression on them separately to obtain a collection of candidate models and an imputation model. We use the latter to fill the missing labels and then select the best candidate accordingly. Our non-asymptotic excess risk bounds demonstrate that our estimator adapts effectively to both the structure of the target distribution and the covariate shift. This adaptation is quantified through a notion of effective sample size that reflects the value of labeled source data for the target regression task. Our estimator achieves the minimax optimal error rate up to a polylogarithmic factor, and we find that using pseudo-labels for model selection does not significantly hinder performance.

arxiv情報

著者 Kaizheng Wang
発行日 2024-11-08 17:05:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 62G05, 62J07, cs.LG, math.ST, stat.ME, stat.ML, stat.TH パーマリンク