Collaborative causal inference on distributed data

要約

近年、分散データのプライバシーを保護しながら因果関係を推論する技術の開発が注目を集めています。
分散データに関する既存の手法の多くは、被験者 (サンプル) の不足を解決することに焦点を当てており、治療効果の推定におけるランダムな誤差を減らすことしかできません。
この研究では、被験者と共変量の両方の欠如を解決し、推定におけるランダムな誤差とバイアスを減らすデータコラボレーション準実験 (DC-QE) を提案します。
私たちの手法には、ローカル当事者からのプライベートデータから次元を削減した中間表現を構築し、プライバシー保護のためにプライベートデータの代わりに中間表現を共有し、共有された中間表現から傾向スコアを推定し、最後に傾向スコアから治療効果を推定することが含まれます。
人工データと現実世界のデータの両方に対する数値実験を通じて、私たちの方法が個別の分析よりも優れた推定結果をもたらすことを確認しました。
次元削減によりプライベート データの一部の情報が失われ、パフォーマンスの低下が引き起こされますが、中間表現を多くの関係者と共有して主語と共変量の欠如を解決すると、次元削減によって引き起こされる低下を克服するのに十分なパフォーマンスが向上することが観察されています。
外部の妥当性は必ずしも保証されていませんが、我々の結果は DC-QE が有望な方法であることを示唆しています。
私たちの手法が広く使用されると、中間表現をオープンデータとして公開し、研究者が因果関係を見つけたり、知識ベースを蓄積したりするのに役立ちます。

要約(オリジナル)

In recent years, the development of technologies for causal inference with privacy preservation of distributed data has gained considerable attention. Many existing methods for distributed data focus on resolving the lack of subjects (samples) and can only reduce random errors in estimating treatment effects. In this study, we propose a data collaboration quasi-experiment (DC-QE) that resolves the lack of both subjects and covariates, reducing random errors and biases in the estimation. Our method involves constructing dimensionality-reduced intermediate representations from private data from local parties, sharing intermediate representations instead of private data for privacy preservation, estimating propensity scores from the shared intermediate representations, and finally, estimating the treatment effects from propensity scores. Through numerical experiments on both artificial and real-world data, we confirm that our method leads to better estimation results than individual analyses. While dimensionality reduction loses some information in the private data and causes performance degradation, we observe that sharing intermediate representations with many parties to resolve the lack of subjects and covariates sufficiently improves performance to overcome the degradation caused by dimensionality reduction. Although external validity is not necessarily guaranteed, our results suggest that DC-QE is a promising method. With the widespread use of our method, intermediate representations can be published as open data to help researchers find causalities and accumulate a knowledge base.

arxiv情報

著者 Yuji Kawamata,Ryoki Motai,Yukihiko Okada,Akira Imakura,Tetsuya Sakurai
発行日 2023-09-19 15:30:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME パーマリンク