PASS:Test-Time Prompting to Adapt Styles and Semantic Shapes in Medical Image Segmentation

要約

テスト時アダプテーション (TTA) は、追加のトレーニング データを使用せずに、さまざまな施設からの医療画像のテスト時にドメイン シフトを処理する有望なパラダイムとして浮上しています。
ただし、セグメンテーション タスク用の既存の TTA ソリューションには、(1) ソース トレーニング ステージの変更とソース事前分布へのアクセスへの依存、または (2) セグメンテーション タスクに重要な形状関連の意味論的知識の重視の欠如という問題があります。視覚プロンプトに関する最近の研究
学習では、拡張パラメータ空間によってソース緩和適応が達成されますが、セマンティック機能の完全な利用がまだ無視されているため、知識が豊富なディーププロンプト学習への取り組みが動機付けられています。
画像スタイルの変化という一般的な懸念を超えて、形状のばらつきがパフォーマンス低下を引き起こすもう 1 つの重要な要因であることが明らかになりました。
この問題に対処するために、PASS (Prompting to Adapt Styles and Semantic Shapes) と呼ばれる TTA フレームワークを提案します。これは、2 種類のプロンプトを共同学習します。1 つは、事前トレーニングされたモデルに適合するようにテスト画像のスタイルを再定式化する入力空間プロンプトです。
セマンティックを意識したプロンプトにより、ドメイン間の高レベルの形状の不一致を埋めることができます。
単純に固定プロンプトを強制する代わりに、入力データに基づいて条件付けされた自己調整型の視覚的プロンプトを生成する入力デコレーターを導入します。
知識表現を取得し、テストサンプルごとにターゲット固有の形状プロンプトをカスタマイズするために、ターゲット表現と強化された形状プロンプトバンクの間の相互作用を実行するクロスアテンションプロンプトモジュレーターを提案します。
広範な実験により、複数の医用画像セグメンテーション データセットに対する PASS のパフォーマンスが最先端の方法よりも優れていることが実証されています。
コードは https://github.com/EndoluminalSurgicalVision-IMR/PASS で入手できます。

要約(オリジナル)

Test-time adaptation (TTA) has emerged as a promising paradigm to handle the domain shifts at test time for medical images from different institutions without using extra training data. However, existing TTA solutions for segmentation tasks suffer from (1) dependency on modifying the source training stage and access to source priors or (2) lack of emphasis on shape-related semantic knowledge that is crucial for segmentation tasks.Recent research on visual prompt learning achieves source-relaxed adaptation by extended parameter space but still neglects the full utilization of semantic features, thus motivating our work on knowledge-enriched deep prompt learning. Beyond the general concern of image style shifts, we reveal that shape variability is another crucial factor causing the performance drop. To address this issue, we propose a TTA framework called PASS (Prompting to Adapt Styles and Semantic shapes), which jointly learns two types of prompts: the input-space prompt to reformulate the style of the test image to fit into the pretrained model and the semantic-aware prompts to bridge high-level shape discrepancy across domains. Instead of naively imposing a fixed prompt, we introduce an input decorator to generate the self-regulating visual prompt conditioned on the input data. To retrieve the knowledge representations and customize target-specific shape prompts for each test sample, we propose a cross-attention prompt modulator, which performs interaction between target representations and an enriched shape prompt bank. Extensive experiments demonstrate the superior performance of PASS over state-of-the-art methods on multiple medical image segmentation datasets. The code is available at https://github.com/EndoluminalSurgicalVision-IMR/PASS.

arxiv情報

著者 Chuyan Zhang,Hao Zheng,Xin You,Yefeng Zheng,Yun Gu
発行日 2024-10-02 14:11:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク