Data Diet: Can Trimming PET/CT Datasets Enhance Lesion Segmentation?

要約

この研究では、autoPET3データセントリックトラックに出場するための我々のアプローチについて述べる。従来の常識では、より大きなデータセットがより優れたモデル性能につながることが示唆されているが、最近の研究では、特定の訓練サンプルを除外することで、モデルの精度が向上することが示されている。我々は、autoPETIIIデータセットにおいて、データセット全体で訓練されたモデルは、特にPSMA-PETに対して多数の偽陽性を生じるという望ましくない特性を示すことを発見した。我々は、ゼロから再トレーニングする前に、モデル損失によって測定されるように、トレーニングデータセットから最も簡単なサンプルを除去することによって、これに対抗する。提案されたアプローチを用いることで、偽陰性の量を減少させることができ、予備テストセットにおいて偽陰性の量とサイコロスコアの両方でベースラインモデルを改善することができた。コードと訓練済みモデルはgithub.com/alexanderjaus/autopet3_datadietで入手可能。

要約(オリジナル)

In this work, we describe our approach to compete in the autoPET3 datacentric track. While conventional wisdom suggests that larger datasets lead to better model performance, recent studies indicate that excluding certain training samples can enhance model accuracy. We find that in the autoPETIII dataset, a model that is trained on the entire dataset exhibits undesirable characteristics by producing a large number of false positives particularly for PSMA-PETs. We counteract this by removing the easiest samples from the training dataset as measured by the model loss before retraining from scratch. Using the proposed approach we manage to drive down the false negative volume and improve upon the baseline model in both false negative volume and dice score on the preliminary test set. Code and pre-trained models are available at github.com/alexanderjaus/autopet3_datadiet.

arxiv情報

著者 Alexander Jaus,Simon Reiß,Jens Klesiek,Rainer Stiefelhagen
発行日 2024-10-04 16:39:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, eess.IV パーマリンク