WeakPolyp: You Only Look Bounding Box for Polyp Segmentation

要約

ポリープ セグメンテーション モデルは、高価なピクセル レベルのラベルによって制限されるため、データ不足に悩まされ、一般化が損なわれます。
対照的に、ポリープ境界ボックスの注釈ははるかに安価でアクセスしやすくなっています。
したがって、ラベル付けコストを削減するために、バウンディング ボックスの注釈に完全に基づいて弱教師ポリプ セグメンテーション モデル (つまり WeakPolyp) を学習することを提案します。
ただし、粗い境界ボックスにはノイズが多すぎます。
干渉を避けるために、マスクからボックスへの (M2B) 変換を導入します。
M2B は、予測自体ではなく予測のアウター ボックス マスクを監視することにより、粗いラベルと正確な予測の間の不一致を大幅に軽減します。
ただし、M2B はまばらな監視しか提供しないため、一意ではない予測が行われます。
したがって、高密度監視のためのスケール整合性 (SC) 損失をさらに提案します。
異なるスケールで同じ画像全体にわたって予測を明示的に位置合わせすることにより、SC 損失により予測の変動が大幅に減少します。
WeakPolyp はプラグアンドプレイ モデルであり、他の魅力的なバックボーンに簡単に移植できることに注意してください。
さらに、提案されたモジュールはトレーニング中にのみ使用されるため、推論に計算コストは​​かかりません。
広範な実験により、私たちが提案した WeakPolyp の有効性が実証されています。驚くべきことに、マスク アノテーションをまったく必要とせず、完全に教師付きモデルと同等のパフォーマンスを達成します。

要約(オリジナル)

Limited by expensive pixel-level labels, polyp segmentation models are plagued by data shortage and suffer from impaired generalization. In contrast, polyp bounding box annotations are much cheaper and more accessible. Thus, to reduce labeling cost, we propose to learn a weakly supervised polyp segmentation model (i.e., WeakPolyp) completely based on bounding box annotations. However, coarse bounding boxes contain too much noise. To avoid interference, we introduce the mask-to-box (M2B) transformation. By supervising the outer box mask of the prediction instead of the prediction itself, M2B greatly mitigates the mismatch between the coarse label and the precise prediction. But, M2B only provides sparse supervision, leading to non-unique predictions. Therefore, we further propose a scale consistency (SC) loss for dense supervision. By explicitly aligning predictions across the same image at different scales, the SC loss largely reduces the variation of predictions. Note that our WeakPolyp is a plug-and-play model, which can be easily ported to other appealing backbones. Besides, the proposed modules are only used during training, bringing no computation cost to inference. Extensive experiments demonstrate the effectiveness of our proposed WeakPolyp, which surprisingly achieves a comparable performance with a fully supervised model, requiring no mask annotations at all.

arxiv情報

著者 Jun Wei,Yiwen Hu,Shuguang Cui,S. Kevin Zhou,Zhen Li
発行日 2023-07-20 14:34:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク