On Prediction Feature Assignment in the Heckman Selection Model

要約

Missing-not-at-random (MNAR) サンプル選択バイアスの下では、予測モデルのパフォーマンスが低下することがよくあります。
この論文では、サンプルのサブセットが非ランダムに欠損している結果を持つ、MNAR サンプル選択バイアスの 1 つの古典的な例に焦点を当てます。
ヘックマン選択モデルとその変形は、この種のサンプル選択バイアスを処理するために一般的に使用されてきました。
Heckman モデルは 2 つの別個の方程式を使用してサンプルの予測と選択をモデル化し、選択特徴にはすべての予測特徴が含まれます。
Heckman モデルを使用する場合、予測特徴は選択特徴のセットから適切に選択される必要があります。
ただし、適切な予測特徴を選択することは、Heckman モデルにとって困難な作業です。
これは、選択フィーチャの数が多い場合に特に当てはまります。
Heckman モデルを使用する既存のアプローチでは、多くの場合、手動で選択された予測特徴のセットが提供されます。
この論文では、Heckman モデルの予測特徴を取得するための新しいデータ駆動型フレームワークとして Heckman-FA を提案します。
Heckman-FA は、まず、選択特徴が予測特徴として割り当てられるかどうかを決定する割り当て関数をトレーニングします。
トレーニングされた関数のパラメーターを使用して、フレームワークは、選択された予測特徴を考慮した予測モデルの適合度、および予測式と選択式のノイズ項間の相関に基づいて、適切な予測特徴のセットを抽出します。
実世界のデータセットに関する実験結果は、Heckman-FA が MNAR サンプル選択バイアスの下で堅牢な回帰モデルを生成することを示しています。

要約(オリジナル)

Under missing-not-at-random (MNAR) sample selection bias, the performance of a prediction model is often degraded. This paper focuses on one classic instance of MNAR sample selection bias where a subset of samples have non-randomly missing outcomes. The Heckman selection model and its variants have commonly been used to handle this type of sample selection bias. The Heckman model uses two separate equations to model the prediction and selection of samples, where the selection features include all prediction features. When using the Heckman model, the prediction features must be properly chosen from the set of selection features. However, choosing the proper prediction features is a challenging task for the Heckman model. This is especially the case when the number of selection features is large. Existing approaches that use the Heckman model often provide a manually chosen set of prediction features. In this paper, we propose Heckman-FA as a novel data-driven framework for obtaining prediction features for the Heckman model. Heckman-FA first trains an assignment function that determines whether or not a selection feature is assigned as a prediction feature. Using the parameters of the trained function, the framework extracts a suitable set of prediction features based on the goodness-of-fit of the prediction model given the chosen prediction features and the correlation between noise terms of the prediction and selection equations. Experimental results on real-world datasets show that Heckman-FA produces a robust regression model under MNAR sample selection bias.

arxiv情報

著者 Huy Mai,Xintao Wu
発行日 2024-04-22 16:31:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME パーマリンク