Augmenting Chest X-ray Datasets with Non-Expert Annotations

要約

医療画像解析における機械学習アルゴリズムの進歩には、トレーニング データセットの拡張が必要です。
一般的で費用対効果の高いアプローチは、フリーテキストの医療レポートからの注釈の自動抽出です。これは主に、胸部 X 線画像に注釈を付ける専門の臨床医に関連するコストが高いためです。
ただし、結果として得られるデータセットはバイアスやショートカットの影響を受けやすいことが示されています。
データセットのサイズを増やすもう 1 つの戦略は、クラウドソーシングです。これは、一般的なコンピュータ ビジョンで広く採用されており、医用画像分析である程度の成功を収めています。
クラウドソーシングと同様に、専門家以外の注釈を組み込むことで、公開されている 2 つの胸部 X 線データセットを強化します。
ただし、診断ラベルを使用する代わりに、チューブの形式でショートカットに注釈を付けます。
CXR14 については 3.5,000 のチェストドレインのアノテーションを収集し、PadChest では 4 つの異なるチューブ タイプについて 1,000 のアノテーションを収集しています。
専門家ラベルによく一般化される非専門家注釈を使用して胸腔ドレナージ検出器をトレーニングします。
さらに、私たちの注釈を専門家によって提供された注釈と比較し、「中程度」から「ほぼ完璧」な一致を示しました。
最後に、グラウンド トゥルースの注釈についての意識を高めるために、病理一致研究を紹介します。
注釈とコードを利用できるようにします。

要約(オリジナル)

The advancement of machine learning algorithms in medical image analysis requires the expansion of training datasets. A popular and cost-effective approach is automated annotation extraction from free-text medical reports, primarily due to the high costs associated with expert clinicians annotating chest X-ray images. However, it has been shown that the resulting datasets are susceptible to biases and shortcuts. Another strategy to increase the size of a dataset is crowdsourcing, a widely adopted practice in general computer vision with some success in medical image analysis. In a similar vein to crowdsourcing, we enhance two publicly available chest X-ray datasets by incorporating non-expert annotations. However, instead of using diagnostic labels, we annotate shortcuts in the form of tubes. We collect 3.5k chest drain annotations for CXR14, and 1k annotations for 4 different tube types in PadChest. We train a chest drain detector with the non-expert annotations that generalizes well to expert labels. Moreover, we compare our annotations to those provided by experts and show ‘moderate’ to ‘almost perfect’ agreement. Finally, we present a pathology agreement study to raise awareness about ground truth annotations. We make our annotations and code available.

arxiv情報

著者 Cathrine Damgaard,Trine Naja Eriksen,Dovile Juodelyte,Veronika Cheplygina,Amelia Jiménez-Sánchez
発行日 2023-09-05 13:52:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク