Label Filling via Mixed Supervision for Medical Image Segmentation from Noisy Annotations

要約

医療画像のセグメンテーションを成功させるには、通常、多数の高品質のラベルが必要です。
しかし、ラベル付けプロセスは通常、評価者のさまざまなスキル レベルや特性の影響を受けるため、さまざまな評価者によって提供される推定マスクには通常、評価者間の大きなばらつきが生じます。
この論文では、トレーニング中にノイズの多い注釈のみが与えられたグラウンドトゥルース セグメンテーション ラベルを予測する、LF-Net と呼ばれる、シンプルかつ効果的なラベル充填フレームワークを提案します。
ラベル充填の基本的な考え方は、信頼できるラベルを持つピクセルのサブセットによってセグメンテーション モデルを監視しながら、混合監視によって他のピクセルのラベルを埋めることです。
より具体的には、我々は適格多数決戦略を提案する。すなわち、閾値投票スキームは評価者間の合意をモデル化するように設計されており、選択されたピクセルのサブセットの多数決ラベルが監視とみなされます。
他のピクセルのラベルを埋めるために、2 つのタイプの混合補助監視が提案されています。ノイズのあるアノテーションの固有構造から学習されたソフト ラベルと、個々の評価者の特性情報を伝播する評価者の特性ラベルです。
LF-Net には 2 つの主な利点があります。
1) 信頼できるピクセルを使用したトレーニングには、信頼できる監督によるトレーニングが組み込まれており、グラウンドトゥルース ラベル学習の方向性を導きます。
2) 2 種類の混合監視により、ネットワークがピクセルのサブセットによって監視されている場合の過剰適合の問題が防止され、真のラベルの高い忠実度が保証されます。
多様な画像モダリティの 5 つのデータセットに関する結果は、当社の LF-Net が最先端の方法と比較してすべてのデータセットでセグメンテーションの精度を向上させ、MS 病変のセグメンテーションの DSC でさえ 7% 向上していることを示しています。

要約(オリジナル)

The success of medical image segmentation usually requires a large number of high-quality labels. But since the labeling process is usually affected by the raters’ varying skill levels and characteristics, the estimated masks provided by different raters usually suffer from high inter-rater variability. In this paper, we propose a simple yet effective Label Filling framework, termed as LF-Net, predicting the groundtruth segmentation label given only noisy annotations during training. The fundamental idea of label filling is to supervise the segmentation model by a subset of pixels with trustworthy labels, meanwhile filling labels of other pixels by mixed supervision. More concretely, we propose a qualified majority voting strategy, i.e., a threshold voting scheme is designed to model agreement among raters and the majority-voted labels of the selected subset of pixels are regarded as supervision. To fill labels of other pixels, two types of mixed auxiliary supervision are proposed: a soft label learned from intrinsic structures of noisy annotations, and raters’ characteristics labels which propagate individual rater’s characteristics information. LF-Net has two main advantages. 1) Training with trustworthy pixels incorporates training with confident supervision, guiding the direction of groundtruth label learning. 2) Two types of mixed supervision prevent over-fitting issues when the network is supervised by a subset of pixels, and guarantee high fidelity with the true label. Results on five datasets of diverse imaging modalities show that our LF-Net boosts segmentation accuracy in all datasets compared with state-of-the-art methods, with even a 7% improvement in DSC for MS lesion segmentation.

arxiv情報

著者 Ming Li,Wei Shen,Qingli Li,Yan Wang
発行日 2024-10-21 14:36:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク