Synthetic ECG Generation for Data Augmentation and Transfer Learning in Arrhythmia Classification

要約

深層学習モデルには、その中に隠れたパターンを見つけるために十分な量のデータが必要です。
生成モデリングの目的は、データの分布を学習することです。これにより、より多くのデータをサンプリングし、元のデータセットを拡張できるようになります。
生理学的データ、より具体的には心電図 (ECG) データのコンテキストでは、その機密性と高価なデータ収集を考慮すると、生成モデルの利点を活用して既存のデータセットを拡大し、下流のタスク (この場合は分類) を改善できます。
心臓のリズム。
この研究では、2 つのオープンソースの多変量 ECG データセットに対してより良い分類結果を得るために、深層学習のさまざまな生成モデル、つまり Diffweave、Time-Diffusion、Time-VQVAE で生成された合成データの有用性を調査します。
さらに、合成的に事前トレーニングされたモデルを微調整し、実際のデータの割合を徐々に増やして追加することで、転移学習の効果も調査します。
合成サンプルは実際のサンプルに似ていますが、実際のデータセットを単純に拡張した場合の分類の改善は、個々のデータセットではほとんど目立ちませんが、両方のデータセットをマージすると、合成サンプルを
拡張されたデータ。
微調整の結果から、Time-VQVAE 生成モデルは他の生成モデルより優れていることが示されましたが、実際のデータのみでトレーニングされた分類器に近い結果を達成するには十分強力ではありません。
さらに、この研究の主な研究課題の副作用として、合成データと実際のデータとの近さを測定するための方法と指標が検討されています。

要約(オリジナル)

Deep learning models need a sufficient amount of data in order to be able to find the hidden patterns in it. It is the purpose of generative modeling to learn the data distribution, thus allowing us to sample more data and augment the original dataset. In the context of physiological data, and more specifically electrocardiogram (ECG) data, given its sensitive nature and expensive data collection, we can exploit the benefits of generative models in order to enlarge existing datasets and improve downstream tasks, in our case, classification of heart rhythm. In this work, we explore the usefulness of synthetic data generated with different generative models from Deep Learning namely Diffweave, Time-Diffusion and Time-VQVAE in order to obtain better classification results for two open source multivariate ECG datasets. Moreover, we also investigate the effects of transfer learning, by fine-tuning a synthetically pre-trained model and then progressively adding increasing proportions of real data. We conclude that although the synthetic samples resemble the real ones, the classification improvement when simply augmenting the real dataset is barely noticeable on individual datasets, but when both datasets are merged the results show an increase across all metrics for the classifiers when using synthetic samples as augmented data. From the fine-tuning results the Time-VQVAE generative model has shown to be superior to the others but not powerful enough to achieve results close to a classifier trained with real data only. In addition, methods and metrics for measuring closeness between synthetic data and the real one have been explored as a side effect of the main research questions of this study.

arxiv情報

著者 José Fernando Núñez,Jamie Arjona,Javier Béjar
発行日 2024-11-27 15:46:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク