Synthetic Data as Validation

要約

この研究では、合成データを検証セットとして活用して、過学習を軽減し、AI 開発における最適なモデルの選択を容易にします。
合成データはトレーニング セットを強化するために使用されてきましたが、合成データは検証セットを大幅に多様化することもでき、一般にデータが限定的で機密性が高く、ドメイン外のソースからのデータであるヘルスケアなどの分野で顕著な利点を提供できることがわかりました。
病院)。
この研究では、コンピュータ断層撮影 (CT) ボリュームでの早期癌検出における合成データの有効性を説明します。合成データでは、合成腫瘍が生成され、健康な臓器に重ね合わされ、それによって厳密な検証のための広範なデータセットが作成されます。
合成データを検証として使用すると、ドメイン内とドメイン外の両方のテスト セットで AI の堅牢性を向上させることができます。
さらに、人工腫瘍を使用したドメイン外データのストリームで AI モデルを継続的にトレーニングする新しい継続的学習フレームワークを確立します。
動的に拡張する合成データでトレーニングおよび検証された AI モデルは、実世界のデータのみでトレーニングおよび検証されたモデルよりも一貫して優れたパフォーマンスを発揮できます。
具体的には、肝臓腫瘍セグメンテーションの DSC スコアは、ドメイン内データセットで評価した場合は 26.7% (95% CI: 22.6%-30.9%) から 34.5% (30.8%-38.2%) に改善され、また、31.1% (26.0%-
ドメイン外データセットでは 36.2%) ~ 35.4% (32.1% ~ 38.7%)。
重要なのは、パフォーマンスの向上は、CT ボリューム内の非常に小さな肝腫瘍 (半径 < 5mm) の特定において特に顕著であり、感度がドメイン内データセットで 33.1% から 55.4%、ドメイン外データセットで 33.9% から 52.3% に向上しました。 、癌の早期発見における有効性を正当化します。 合成データの適用は、トレーニングと検証の両方の観点から、さまざまなドメインのデータを扱う際に AI の堅牢性を強化するための有望な手段であることを強調します。

要約(オリジナル)

This study leverages synthetic data as a validation set to reduce overfitting and ease the selection of the best model in AI development. While synthetic data have been used for augmenting the training set, we find that synthetic data can also significantly diversify the validation set, offering marked advantages in domains like healthcare, where data are typically limited, sensitive, and from out-domain sources (i.e., hospitals). In this study, we illustrate the effectiveness of synthetic data for early cancer detection in computed tomography (CT) volumes, where synthetic tumors are generated and superimposed onto healthy organs, thereby creating an extensive dataset for rigorous validation. Using synthetic data as validation can improve AI robustness in both in-domain and out-domain test sets. Furthermore, we establish a new continual learning framework that continuously trains AI models on a stream of out-domain data with synthetic tumors. The AI model trained and validated in dynamically expanding synthetic data can consistently outperform models trained and validated exclusively on real-world data. Specifically, the DSC score for liver tumor segmentation improves from 26.7% (95% CI: 22.6%-30.9%) to 34.5% (30.8%-38.2%) when evaluated on an in-domain dataset and from 31.1% (26.0%-36.2%) to 35.4% (32.1%-38.7%) on an out-domain dataset. Importantly, the performance gain is particularly significant in identifying very tiny liver tumors (radius < 5mm) in CT volumes, with Sensitivity improving from 33.1% to 55.4% on an in-domain dataset and 33.9% to 52.3% on an out-domain dataset, justifying the efficacy in early detection of cancer. The application of synthetic data, from both training and validation perspectives, underlines a promising avenue to enhance AI robustness when dealing with data from varying domains.

arxiv情報

著者 Qixin Hu,Alan Yuille,Zongwei Zhou
発行日 2023-10-24 17:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク