Data Diet: Can Trimming PET/CT Datasets Enhance Lesion Segmentation?

要約

この作業では、autoPET3 データセントリック トラックで競争するためのアプローチについて説明します。
従来の通念では、データセットが大きいほどモデルのパフォーマンスが向上すると考えられていますが、最近の研究では、特定のトレーニング サンプルを除外するとモデルの精度が向上する可能性があることが示されています。
autoPETIII データセットでは、データセット全体でトレーニングされたモデルが、特に PSMA-PET に対して多数の偽陽性を生成することで望ましくない特性を示していることがわかりました。
これに対処するには、最初から再トレーニングする前に、モデルの損失によって測定されるトレーニング データセットから最も簡単なサンプルを削除します。
提案されたアプローチを使用して、偽陰性量を削減し、予備テスト セットの偽陰性量とサイコロ スコアの両方でベースライン モデルを改善することができました。
コードと事前トレーニングされたモデルは、github.com/alexanderjaus/autopet3_datadiet で入手できます。

要約(オリジナル)

In this work, we describe our approach to compete in the autoPET3 datacentric track. While conventional wisdom suggests that larger datasets lead to better model performance, recent studies indicate that excluding certain training samples can enhance model accuracy. We find that in the autoPETIII dataset, a model that is trained on the entire dataset exhibits undesirable characteristics by producing a large number of false positives particularly for PSMA-PETs. We counteract this by removing the easiest samples from the training dataset as measured by the model loss before retraining from scratch. Using the proposed approach we manage to drive down the false negative volume and improve upon the baseline model in both false negative volume and dice score on the preliminary test set. Code and pre-trained models are available at github.com/alexanderjaus/autopet3_datadiet.

arxiv情報

著者 Alexander Jaus,Simon Reiß,Jens Klesiek,Rainer Stiefelhagen
発行日 2024-10-02 15:25:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク