High-dimensional multiple imputation (HDMI) for partially observed confounders including natural language processing-derived auxiliary covariates

要約

多重代入 (MI) モデルは補助共変量 (AC) を含めることで改善できますが、高次元データにおけるパフォーマンスは十分に理解されていません。
私たちは、部分的に観察された交絡因子を含む研究において、構造化自然言語処理 (NLP) 由来の AC を使用した高次元 MI (HDMI) アプローチを開発し、比較することを目的としました。
われわれは、オピオイドと非ステロイド性抗炎症薬(NSAID)開始剤(X)のデータを使用し、観察された血清クレアチニン検査値(Z2)と急性腎障害までの時間を結果として使用して、プラスモードシミュレーション研究を実施しました。
結果生成において、X、Z2、心房細動 (U)、および他の 13 の研究者由来の交絡因子 (Z1) を含む、治療効果がゼロの 100 のコホートをシミュレーションしました。
次に、Z2 と U の関数として Z2 測定値の 50% に欠損 (MZ2) を課し、構造化特徴と NLP 由来の特徴を使用してさまざまな HDMI 候補 AC を作成しました。
U をすべての AC 候補セットから除外することで、U が観測されないシナリオを模倣しました。
LASSO を使用して、MI の Z2 および MZ2、および傾向スコア モデルに含める U に関連する HDMI 共変量をデータ適応的に選択しました。
治療効果は、MI データセットでの傾向スコアのマッチング後に推定され、ベースライン代入と Z1 のみを使用した完全な症例分析に対して HDMI アプローチをベンチマークしました。
HDMI を使用したクレーム データでは、最も低いバイアス (0.072) が示されました。
クレームと文の埋め込みを組み合わせることで、効率が向上し、最低の二乗平均平方根誤差 (0.173) とカバレッジ (94%) が表示されました。
NLP由来のAC単独では、ベースラインMIよりも優れたパフォーマンスは得られませんでした。
HDMI アプローチは、欠損が観察されていない要因に依存する部分的に観察された交絡因子を含む研究の偏りを軽減する可能性があります。

要約(オリジナル)

Multiple imputation (MI) models can be improved by including auxiliary covariates (AC), but their performance in high-dimensional data is not well understood. We aimed to develop and compare high-dimensional MI (HDMI) approaches using structured and natural language processing (NLP)-derived AC in studies with partially observed confounders. We conducted a plasmode simulation study using data from opioid vs. non-steroidal anti-inflammatory drug (NSAID) initiators (X) with observed serum creatinine labs (Z2) and time-to-acute kidney injury as outcome. We simulated 100 cohorts with a null treatment effect, including X, Z2, atrial fibrillation (U), and 13 other investigator-derived confounders (Z1) in the outcome generation. We then imposed missingness (MZ2) on 50% of Z2 measurements as a function of Z2 and U and created different HDMI candidate AC using structured and NLP-derived features. We mimicked scenarios where U was unobserved by omitting it from all AC candidate sets. Using LASSO, we data-adaptively selected HDMI covariates associated with Z2 and MZ2 for MI, and with U to include in propensity score models. The treatment effect was estimated following propensity score matching in MI datasets and we benchmarked HDMI approaches against a baseline imputation and complete case analysis with Z1 only. HDMI using claims data showed the lowest bias (0.072). Combining claims and sentence embeddings led to an improvement in the efficiency displaying the lowest root-mean-squared-error (0.173) and coverage (94%). NLP-derived AC alone did not perform better than baseline MI. HDMI approaches may decrease bias in studies with partially observed confounders where missingness depends on unobserved factors.

arxiv情報

著者 Janick Weberpals,Pamela A. Shaw,Kueiyu Joshua Lin,Richard Wyss,Joseph M Plasek,Li Zhou,Kerry Ngan,Thomas DeRamus,Sudha R. Raman,Bradley G. Hammill,Hana Lee,Sengwee Toh,John G. Connolly,Kimberly J. Dandreo,Fang Tian,Wei Liu,Jie Li,José J. Hernández-Muñoz,Sebastian Schneeweiss,Rishi J. Desai
発行日 2024-05-17 17:24:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ME パーマリンク