Impact of Leakage on Data Harmonization in Machine Learning Pipelines in Class Imbalance Across Sites

要約

機械学習 (ML) モデルは大規模なデータセットから恩恵を受けます。
生物医学分野でのデータ収集はコストが高く、困難であるため、データセットを結合することが一般的になっています。
ただし、異なる条件下で取得されたデータセットでは、サイト固有の望ましくない変動が生じる可能性があります。
データ調和手法は、生物学的に関連する情報を保持しながら、部位固有の差異を除去することを目的としています。
この研究では、クラスのバランスがサイト間で等しくないシナリオでデータを調和させるために一般的に使用されている ComBat ベースの手法の有効性を評価します。
これらの方法はデータ漏洩の問題に悩まされていることがわかりました。
この問題を克服するために、ターゲットのラベルを偽装することでデータを調和させるように設計された新しいアプローチ PrettYharmonize を提案します。
調和の有用性をベンチマークするように設計された管理されたデータセットを使用して、アプローチを検証します。
最後に、実際の MRI および臨床データを使用して、漏洩が発生しやすい手法と PrettYharmonize を比較し、特に部位ターゲット依存のシナリオにおいて、データ漏洩を回避しながら同等のパフォーマンスを達成することを示します。

要約(オリジナル)

Machine learning (ML) models benefit from large datasets. Collecting data in biomedical domains is costly and challenging, hence, combining datasets has become a common practice. However, datasets obtained under different conditions could present undesired site-specific variability. Data harmonization methods aim to remove site-specific variance while retaining biologically relevant information. This study evaluates the effectiveness of popularly used ComBat-based methods for harmonizing data in scenarios where the class balance is not equal across sites. We find that these methods struggle with data leakage issues. To overcome this problem, we propose a novel approach PrettYharmonize, designed to harmonize data by pretending the target labels. We validate our approach using controlled datasets designed to benchmark the utility of harmonization. Finally, using real-world MRI and clinical data, we compare leakage-prone methods with PrettYharmonize and show that it achieves comparable performance while avoiding data leakage, particularly in site-target-dependence scenarios.

arxiv情報

著者 Nicolás Nieto,Simon B. Eickhoff,Christian Jung,Martin Reuter,Kersten Diers,Malte Kelm,Artur Lichtenberg,Federico Raimondo,Kaustubh R. Patil
発行日 2024-12-10 18:50:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク