Domain Adaptation under Missingness Shift

要約

欠落データの割合は、多くの場合、記録保持ポリシーに依存するため、基礎となる機能が比較的安定している場合でも、時間や場所によって変化する可能性があります.
この論文では、Missingness Shift (DAMS) の下での Domain Adaptation の問題を紹介します。
ここで、(ラベル付けされた) ソース データと (ラベル付けされていない) ターゲット データは交換可能ですが、欠損データのメカニズムが異なります。
欠損データ インジケーターが利用可能な場合、DAMS は共変量シフトに還元されることを示します。
そのような指標が存在しない場合に対処して、完全にランダムに過少報告するための次の理論的結果を確立します。
(ii)最適な線形ソース予測子は、常に平均を予測するよりも、ターゲットドメインで任意に悪いパフォーマンスを発揮する可能性があります。
(iii) 欠落率自体がそうでない場合でも、最適なターゲット予測子を特定できます。
(iv) 線形モデルの場合、単純な分析調整により、最適なターゲット パラメーターの一貫した推定値が得られます。
合成および半合成データの実験では、仮定が成り立つ場合の方法の有望性を示します。
最後に、将来の拡張機能の豊富なファミリについて説明します。

要約(オリジナル)

Rates of missing data often depend on record-keeping policies and thus may change across times and locations, even when the underlying features are comparatively stable. In this paper, we introduce the problem of Domain Adaptation under Missingness Shift (DAMS). Here, (labeled) source data and (unlabeled) target data would be exchangeable but for different missing data mechanisms. We show that if missing data indicators are available, DAMS reduces to covariate shift. Addressing cases where such indicators are absent, we establish the following theoretical results for underreporting completely at random: (i) covariate shift is violated (adaptation is required); (ii) the optimal linear source predictor can perform arbitrarily worse on the target domain than always predicting the mean; (iii) the optimal target predictor can be identified, even when the missingness rates themselves are not; and (iv) for linear models, a simple analytic adjustment yields consistent estimates of the optimal target parameters. In experiments on synthetic and semi-synthetic data, we demonstrate the promise of our methods when assumptions hold. Finally, we discuss a rich family of future extensions.

arxiv情報

著者 Helen Zhou,Sivaraman Balakrishnan,Zachary C. Lipton
発行日 2023-03-01 16:31:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク