要約
医療画像セグメンテーションにおけるディープ ネットワークの成功は、大量のラベル付きトレーニング データに大きく依存します。
ただし、高密度の注釈を取得するには時間のかかるプロセスです。
弱い監視の方法では通常、より安価な監視形式が使用されますが、その中でも最近、その柔軟性のおかげで落書きが人気を集め始めています。
ただし、形状と境界の情報が不足しているため、ラベルのないピクセルを一般化する落書きで深いネットワークをトレーニングすることは非常に困難です。
この論文では、単純かつ効果的な落書き教師あり学習フレームワークを紹介します。
トランスベースのセグメンテーションの最近の進歩に触発され、任意の完全畳み込みネットワーク (FCN) バックボーンの内部フィーチャ レイヤーの上に接続できる、プラグ可能な空間セルフ アテンション モジュールを作成しました。
このモジュールは、畳み込みの効率を維持しながら、グローバルな相互作用を注入します。
このモジュールから派生して、正規化および対称化された注意に基づいて類似性メトリックを構築します。
この注意深い類似性は、セグメンテーション予測と視覚的類似性の間の一貫性を強制する新しい正則化損失につながります。
この注意深い類似性損失により、FCN エンコーダ、アテンション マッピング、およびモデル予測の調整が最適化されます。
最終的に、提案された FCN+Attend アーキテクチャは、部分セグメンテーション損失、カスタマイズされたマスクされた条件付きランダム フィールド、提案された注意深い類似性損失という 3 つの学習目標の組み合わせに基づいてエンドツーエンドでトレーニングできます。
公開データセット (ACDC および CHAOS) での広範な実験により、私たちのフレームワークが既存の最先端のものを上回るパフォーマンスを発揮するだけでなく、完全に監視されたベンチマークに近いパフォーマンスを提供することが示されました。
コードは公開され次第利用可能になります。
要約(オリジナル)
The success of deep networks in medical image segmentation relies heavily on massive labeled training data. However, acquiring dense annotations is a time-consuming process. Weakly-supervised methods normally employ less expensive forms of supervision, among which scribbles started to gain popularity lately thanks to its flexibility. However, due to lack of shape and boundary information, it is extremely challenging to train a deep network on scribbles that generalizes on unlabeled pixels. In this paper, we present a straightforward yet effective scribble supervised learning framework. Inspired by recent advances of transformer based segmentation, we create a pluggable spatial self-attention module which could be attached on top of any internal feature layers of arbitrary fully convolutional network (FCN) backbone. The module infuses global interaction while keeping the efficiency of convolutions. Descended from this module, we construct a similarity metric based on normalized and symmetrized attention. This attentive similarity leads to a novel regularization loss that imposes consistency between segmentation prediction and visual affinity. This attentive similarity loss optimizes the alignment of FCN encoders, attention mapping and model prediction. Ultimately, the proposed FCN+Attention architecture can be trained end-to-end guided by a combination of three learning objectives: partial segmentation loss, a customized masked conditional random fields and the proposed attentive similarity loss. Extensive experiments on public datasets (ACDC and CHAOS) showed that our framework not just out-performs existing state-of-the-art, but also delivers close performance to fully-supervised benchmark. Code will be available upon publication.
arxiv情報
| 著者 | Mu Tian,Qinzhu Yang,Yi Gao |
| 発行日 | 2023-12-11 18:42:18+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google