Comprehensive Generative Replay for Task-Incremental Segmentation with Concurrent Appearance and Semantic Forgetting

要約

汎用セグメンテーション モデルは、さまざまな画像ソースからのさまざまなオブジェクトを含む多様なタスクにますます好まれています。
タスク増分学習 (TIL) は、厳格なデータ共有ポリシーによってタスクを収集するのではなく、順番に到着するタスクを使用するプライバシー保護トレーニング パラダイムを提供します。
ただし、タスクの進化は、複雑な相関関係を持つ画像の外観とセマンティクスの両方の変化を伴う広い範囲に及ぶ可能性があり、同時の外観と意味の忘却を引き起こします。
この問題を解決するために、過去のタスク データを模倣する画像とマスクのペアを合成することで外観と意味論的な知識を復元する包括的生成再生 (CGR) フレームワークを提案します。これは、画像とマスクの対応関係のモデリングと、多様なタスクのスケーラビリティの促進という 2 つの側面に焦点を当てています。

具体的には、条件付きノイズ除去によって対応関係が明示的に保存された画像とマスクのペアを高品質に合成するための新しいベイズ結合拡散 (BJD) モデルを導入します。
さらに、プロンプト埋め込みを再調整して拡散モデルを調整し、データ合成をさまざまなタスクと互換性のあるものにするタスク指向アダプター (TOA) を開発します。
増分タスク(心臓、眼底、および前立腺のセグメンテーション)に関する実験では、同時出現と意味的忘却を軽減するという明らかな利点が示されています。
コードは https://github.com/jingyzhang/CGR で入手できます。

要約(オリジナル)

Generalist segmentation models are increasingly favored for diverse tasks involving various objects from different image sources. Task-Incremental Learning (TIL) offers a privacy-preserving training paradigm using tasks arriving sequentially, instead of gathering them due to strict data sharing policies. However, the task evolution can span a wide scope that involves shifts in both image appearance and segmentation semantics with intricate correlation, causing concurrent appearance and semantic forgetting. To solve this issue, we propose a Comprehensive Generative Replay (CGR) framework that restores appearance and semantic knowledge by synthesizing image-mask pairs to mimic past task data, which focuses on two aspects: modeling image-mask correspondence and promoting scalability for diverse tasks. Specifically, we introduce a novel Bayesian Joint Diffusion (BJD) model for high-quality synthesis of image-mask pairs with their correspondence explicitly preserved by conditional denoising. Furthermore, we develop a Task-Oriented Adapter (TOA) that recalibrates prompt embeddings to modulate the diffusion model, making the data synthesis compatible with different tasks. Experiments on incremental tasks (cardiac, fundus and prostate segmentation) show its clear advantage for alleviating concurrent appearance and semantic forgetting. Code is available at https://github.com/jingyzhang/CGR.

arxiv情報

著者 Wei Li,Jingyang Zhang,Pheng-Ann Heng,Lixu Gu
発行日 2024-06-28 10:05:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク