Leveraging Self-Supervised Learning for Fetal Cardiac Planes Classification using Ultrasound Scan Videos


自己教師あり学習 (SSL) 手法は、基礎となるデータ分布を直接利用することで、注釈付きデータが限られている状況に対処できるため、一般的です。
しかし、このような方法の採用は、超音波 (US) 画像処理、特に胎児評価では十分に検討されていません。
私たちは、ラベルなしの US ビデオ データを利用して、限定されたラベル付き 2D US 画像を使用した困難な下流の標準胎児心臓面 (SFCP) 分類のパフォーマンスを向上させるデュアル エンコーダ SSL の可能性を調査します。
私たちは、再構築、対比損失、蒸留、情報理論に基づいた 7 つの SSL アプローチを研究し、米国の大規模な民間データセットで広範に評価します。
私たちの観察と発見は、さまざまな設定下での 500 を超える下流トレーニング実験から統合されています。
私たちの主な観察は、SSL トレーニングでは、データセットの分散がそのサイズよりも重要であることを示しています。これにより、モデルは一般化可能な表現を学習できるようになり、下流タスクのパフォーマンスが向上します。
全体として、BarlowTwins メソッドは、下流タスクの初期化として使用した場合、トレーニング設定やデータの変動に関係なく、堅牢なパフォーマンスを示します。
特に、1% のラベル付きデータによる完全な微調整は、F1 スコアで ImageNet 初期化を 12% 上回り、F1 スコアで他の SSL 初期化を少なくとも 4% 上回っているため、米国ビデオからビデオへの転移学習の有望な候補となっています。


Self-supervised learning (SSL) methods are popular since they can address situations with limited annotated data by directly utilising the underlying data distribution. However, the adoption of such methods is not explored enough in ultrasound (US) imaging, especially for fetal assessment. We investigate the potential of dual-encoder SSL in utilizing unlabelled US video data to improve the performance of challenging downstream Standard Fetal Cardiac Planes (SFCP) classification using limited labelled 2D US images. We study 7 SSL approaches based on reconstruction, contrastive loss, distillation, and information theory and evaluate them extensively on a large private US dataset. Our observations and findings are consolidated from more than 500 downstream training experiments under different settings. Our primary observation shows that for SSL training, the variance of the dataset is more crucial than its size because it allows the model to learn generalisable representations, which improve the performance of downstream tasks. Overall, the BarlowTwins method shows robust performance, irrespective of the training settings and data variations, when used as an initialisation for downstream tasks. Notably, full fine-tuning with 1% of labelled data outperforms ImageNet initialisation by 12% in F1-score and outperforms other SSL initialisations by at least 4% in F1-score, thus making it a promising candidate for transfer learning from US video to image data.


著者 Joseph Geo Benjamin,Mothilal Asokan,Amna Alhosani,Hussain Alasmawi,Werner Gerhard Diehl,Leanne Bricker,Karthik Nandakumar,Mohammad Yaqub
発行日 2024-07-31 16:47:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, eess.IV パーマリンク