Inflation of test accuracy due to data leakage in deep learning-based classification of OCT images

要約

光コヒーレンストモグラフィ (OCT) データに対するディープ ラーニングの適用では、ボリューム データに由来する 2D 画像を使用して分類ネットワークをトレーニングするのが一般的です。
OCT システムのマイクロメートルの解像度を考えると、連続した画像は、目に見える構造とノイズの両方で非常に類似していることがよくあります。
したがって、不適切なデータ分割により、トレーニング セットとテスト セットが重複する可能性があり、文献の大部分はこの側面を見落としています。
この研究では、モデル評価に対する不適切なデータセット分割の影響が、広く使用されている 3 つの OCT オープンアクセス データセット、Kermany および Srinivasan の眼科データセット、および AIIMS 乳房組織データセットを使用した 3 つの分類タスクについて実証されています。
結果は、不適切な分割を使用してデータセットでテストされたモデルのマシューズ相関係数 (精度: 5% から 30%) に関して、分類パフォーマンスが 0.07 から 0.43 まで膨張することを示しており、モデル評価に対するデータセット処理のかなりの影響を強調しています。
この研究は、OCT データに深層学習を実装する研究への関心が高まっていることを考慮して、データセット分割の重要性について認識を高めることを目的としています。

要約(オリジナル)

In the application of deep learning on optical coherence tomography (OCT) data, it is common to train classification networks using 2D images originating from volumetric data. Given the micrometer resolution of OCT systems, consecutive images are often very similar in both visible structures and noise. Thus, an inappropriate data split can result in overlap between the training and testing sets, with a large portion of the literature overlooking this aspect. In this study, the effect of improper dataset splitting on model evaluation is demonstrated for three classification tasks using three OCT open-access datasets extensively used, Kermany’s and Srinivasan’s ophthalmology datasets, and AIIMS breast tissue dataset. Results show that the classification performance is inflated by 0.07 up to 0.43 in terms of Matthews Correlation Coefficient (accuracy: 5% to 30%) for models tested on datasets with improper splitting, highlighting the considerable effect of dataset handling on model evaluation. This study intends to raise awareness on the importance of dataset splitting given the increased research interest in implementing deep learning on OCT data.

arxiv情報

著者 Iulian Emil Tampu,Anders Eklund,Neda Haj-Hosseini
発行日 2022-09-27 16:38:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV パーマリンク