要約
分布の変化の存在は、最新の機械学習モデルを現実世界のアプリケーションに導入する際に大きな課題を引き起こします。
この研究は、回帰設定におけるターゲット シフト問題に焦点を当てています (Zhang et al., 2013; Nguyen et al., 2016)。
より具体的には、連続的なターゲット変数 y (応答変数とも呼ばれる) はトレーニング ソースとテスト ドメインで異なる周辺分布を持ちますが、y が与えられた場合の特徴 x の条件付き分布は同じままです。
ほとんどの文献は有限の対象空間を使用した分類タスクに焦点を当てていますが、回帰問題には無限次元の対象空間があるため、既存の手法の多くは適用できません。
この研究では、不適切な設定の積分方程式から重要度重み関数を推定することで、連続ターゲット シフト問題に対処できることを示します。
我々は、不正設定積分方程式を解き、推定重要度重み関数の理論的正当性を提供するために、ReTaSA と呼ばれるノンパラメトリック正則化アプローチを提案します。
提案された方法の有効性は、合成データセットと現実世界のデータセットに関する広範な数値研究によって実証されています。
要約(オリジナル)
The presence of distribution shifts poses a significant challenge for deploying modern machine learning models in real-world applications. This work focuses on the target shift problem in a regression setting (Zhang et al., 2013; Nguyen et al., 2016). More specifically, the target variable y (also known as the response variable), which is continuous, has different marginal distributions in the training source and testing domain, while the conditional distribution of features x given y remains the same. While most literature focuses on classification tasks with finite target space, the regression problem has an infinite dimensional target space, which makes many of the existing methods inapplicable. In this work, we show that the continuous target shift problem can be addressed by estimating the importance weight function from an ill-posed integral equation. We propose a nonparametric regularized approach named ReTaSA to solve the ill-posed integral equation and provide theoretical justification for the estimated importance weight function. The effectiveness of the proposed method has been demonstrated with extensive numerical studies on synthetic and real-world datasets.
arxiv情報
著者 | Hwanwoo Kim,Xin Zhang,Jiwei Zhao,Qinglong Tian |
発行日 | 2024-01-29 18:47:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google