Building predictive models of healthcare costs with open healthcare data

要約

タイトル:オープン医療データを用いた医療費予測モデルの構築
要約:
– 医療費が急速に高騰しているため、これらを制御することに多大な関心がある
– 医療の透明性が重要であるが、患者が医療費の安い施設を選ぶ可能性があるため、データが利用可能であることと、患者のデモグラフィックおよび状態に基づいた医療費の予測モデルが必要となっている
– そのため、機械学習技術を使用した予測モデルを開発することを提案する
– 具体的には、2016年に2.3ミリオンのレコードを含むニューヨーク州SPARCS(州全体の計画および研究協力システム)から非特定医療データを分析し、患者の診断とデモグラフィックに基づいて医療費を予測するモデルを構築した
– スパース回帰と決定木の2つのモデルクラスを調査し、深さが10である決定木を使用することで最高のパフォーマンスを得た
– 類似した問題に対して報告されているよりも高いR2値(0.76)を得た

要約(オリジナル)

Due to rapidly rising healthcare costs worldwide, there is significant interest in controlling them. An important aspect concerns price transparency, as preliminary efforts have demonstrated that patients will shop for lower costs, driving efficiency. This requires the data to be made available, and models that can predict healthcare costs for a wide range of patient demographics and conditions. We present an approach to this problem by developing a predictive model using machine-learning techniques. We analyzed de-identified patient data from New York State SPARCS (statewide planning and research cooperative system), consisting of 2.3 million records in 2016. We built models to predict costs from patient diagnoses and demographics. We investigated two model classes consisting of sparse regression and decision trees. We obtained the best performance by using a decision tree with depth 10. We obtained an R-square value of 0.76 which is better than the values reported in the literature for similar problems.

arxiv情報

著者 A. Ravishankar Rao,Subrata Garai,Soumyabrata Dey,Hang Peng
発行日 2023-04-05 02:12:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CY, cs.LG パーマリンク