Early Diagnosis of Atrial Fibrillation Recurrence: A Large Tabular Model Approach with Structured and Unstructured Clinical Data

要約

背景:最も一般的な不整脈である心房細動(AF)は、高い罹患率と死亡率に関連しています。
急速に進化するAFリズム制御治療の時代では、最適な治療アプローチを達成するためには、chads2-vasc、hatch、Appleなどの従来のスコアが限られた予測精度を示すためには、その発症後のAF再発が重要である可能性があります。
さらに、早期診断研究は、エラーや情報の欠落が含まれる場合があるCodified Electronic Health Record(EHR)データに依存することがよくあります。
目的:この研究の目的は、従来の臨床スコア、MLモデル、およびLTMアプローチを評価することにより、発症後1か月から2年後のAF再発を予測することを目的としています。
さらに、もう1つの目的は、構造化されたデータと非構造化データを統合して表形式のデータセット品質を向上させる方法を開発することです。
方法:構造化された臨床データと、自然言語処理技術を通じて処理されたフリーテキスト放電レポートと組み合わせて、エラーと注釈の取り組みを削減することにより、表形式のデータセットが生成されました。
記録されたAF発症の合計1,508人の患者が特定され、モデルが手動で注釈されたテストセットで評価されました。
提案されたアプローチには、従来の臨床スコアとMLモデルと比較したLTMが含まれます。
結果:提案されたLTMアプローチは、従来の臨床スコアとMLモデルの両方を超える最高の予測パフォーマンスを達成しました。
さらに、性別と年齢のバイアス分析により、人口統計学的格差が明らかになりました。
結論:構造化されたデータとフリーテキストソースの統合により、高品質のデータセットが得られました。
調査結果は、AFの再発を予測する際の従来の臨床スコアの限界を強調し、MLベースのアプローチ、特にLTMモデルの可能性を強調しています。

要約(オリジナル)

BACKGROUND: Atrial fibrillation (AF), the most common arrhythmia, is linked to high morbidity and mortality. In a fast-evolving AF rhythm control treatment era, predicting AF recurrence after its onset may be crucial to achieve the optimal therapeutic approach, yet traditional scores like CHADS2-VASc, HATCH, and APPLE show limited predictive accuracy. Moreover, early diagnosis studies often rely on codified electronic health record (EHR) data, which may contain errors and missing information. OBJECTIVE: This study aims to predict AF recurrence between one month and two years after onset by evaluating traditional clinical scores, ML models, and our LTM approach. Moreover, another objective is to develop a methodology for integrating structured and unstructured data to enhance tabular dataset quality. METHODS: A tabular dataset was generated by combining structured clinical data with free-text discharge reports processed through natural language processing techniques, reducing errors and annotation effort. A total of 1,508 patients with documented AF onset were identified, and models were evaluated on a manually annotated test set. The proposed approach includes a LTM compared against traditional clinical scores and ML models. RESULTS: The proposed LTM approach achieved the highest predictive performance, surpassing both traditional clinical scores and ML models. Additionally, the gender and age bias analyses revealed demographic disparities. CONCLUSION: The integration of structured data and free-text sources resulted in a high-quality dataset. The findings emphasize the limitations of traditional clinical scores in predicting AF recurrence and highlight the potential of ML-based approaches, particularly our LTM model.

arxiv情報

著者 Ane G. Domingo-Aldama,Marcos Merino Prado,Alain García Olea,Koldo Gojenola Galletebeitia,Josu Goikoetxea Salutregi,Aitziber Atutxa Salazar
発行日 2025-05-20 17:31:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク