Predicting Census Survey Response Rates With Parsimonious Additive Models and Structured Interactions

要約

この論文では、柔軟で解釈可能なノンパラメトリック モデルのファミリーを使用して、調査回答率を予測する問題を検討します。
この研究は、米国国勢調査局の有名な ROAM アプリケーションによって動機付けられており、米国国勢調査計画データベースのデータでトレーニングされた線形回帰モデルを使用して、調査が困難な地域を特定します。
約 10 年前に開催されたクラウドソーシング コンペでは、回帰ツリーのアンサンブルに基づく機械学習手法が、調査回答率の予測において最高のパフォーマンスをもたらすことが明らかになりました。
ただし、対応するモデルは、ブラックボックスの性質により、意図したアプリケーションに採用できませんでした。
$\ell_0$ ベースのペナルティを使用して、少数の主交互作用効果とペアワイズ交互作用効果を持つノンパラメトリック加法モデルを検討します。
方法論的な観点から、私たちは推定器の計算的側面と統計的側面の両方を研究しています。
そして、強力な階層相互作用を組み込んだバリアントについて説明します。
私たちのアルゴリズム (github でオープンソース化) は、疎加法モデル用の既存のアルゴリズムの計算フロンティアを拡張し、私たちが検討しているアプリケーションに関連するデータセットを処理できるようにします。
米国国勢調査計画データベースのモデルから得られた結果について議論し、解釈します。
解釈可能性の観点から有用であることに加えて、私たちのモデルは、勾配ブースティングとフィードフォワード ニューラル ネットワークに基づく一般的なブラック ボックス機械学習手法よりも優れていると思われる予測を導き出します。これは、最高の特性を持つモデルが可能であることを示唆しています。
両方の利点: 優れたモデルの精度と解釈可能性。

要約(オリジナル)

In this paper we consider the problem of predicting survey response rates using a family of flexible and interpretable nonparametric models. The study is motivated by the US Census Bureau’s well-known ROAM application which uses a linear regression model trained on the US Census Planning Database data to identify hard-to-survey areas. A crowdsourcing competition organized around ten years ago revealed that machine learning methods based on ensembles of regression trees led to the best performance in predicting survey response rates; however, the corresponding models could not be adopted for the intended application due to their black-box nature. We consider nonparametric additive models with small number of main and pairwise interaction effects using $\ell_0$-based penalization. From a methodological viewpoint, we study both computational and statistical aspects of our estimator; and discuss variants that incorporate strong hierarchical interactions. Our algorithms (opensourced on github) extend the computational frontiers of existing algorithms for sparse additive models, to be able to handle datasets relevant for the application we consider. We discuss and interpret findings from our model on the US Census Planning Database. In addition to being useful from an interpretability standpoint, our models lead to predictions that appear to be better than popular black-box machine learning methods based on gradient boosting and feedforward neural networks — suggesting that it is possible to have models that have the best of both worlds: good model accuracy and interpretability.

arxiv情報

著者 Shibal Ibrahim,Rahul Mazumder,Peter Radchenko,Emanuel Ben-David
発行日 2023-05-26 17:10:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.AP, stat.CO, stat.ML パーマリンク